为 什么 要 写 这 本 书 
数据 和 模型 摘 述 着 世界 ， 而 SA 恰恰 就 是 天 于 数据 和 模型 的 技术 。SAs 技 术 在 全 球 的 数据 处 理 和 分 析 领 域 举足轻重 。 在 国内 ，SAs 的 应 用 日 趋 广泛 ， 自 然 ， 对 掌握 ?As 技术 的 人 才 需 求 也 日 益 旺盛 。 


但 是 当 大 家 谈 及 SAS 的 时 候 ， 普 遍 的 一 个 感受 是 ， 掌 握 SAs 比 较 难 。 这 使 我 记 起 在 2000 年 刚刚 加 入 SAs 中 国 公司 几 天 后 的 一 个 下 午 ， 时 任 SAs 中 国 区 技术 总 监 的 栾 世 武 博士 问 我 : “怎么 样 ? SAS 难 学 
吗 ? ”其 实 ， 在 SAs 公 司 的 同事 当中 ， 大 家 并 不 会 认为 9AS 有 多 难 。 究 其 原因 ， 不 过 是 如 下 几 个 : 


. 在 SAS 公 司 ， 有 着 明确 的 路 线 图 ， 大 家 可 以 清楚 地 知道 学 习 SAS 某 个 领域 的 顺序 和 步骤 是 什么 。 对 于 系统 性 非常 强 而 且 知 识 范围 又 较 广 的 SAS 而 言 ， 这 是 很 重要 的 。 
. 对 于 路 线 图 中 的 每 一 个 阶段 ，SAS 公 司 都 提供 了 详尽 的 资料 供 阅读 和 学 习 。 
" 有 实际 的 项 目 去 实践 和 锻炼 。 
上 面 所 提 到 的 因素 ， 也 正 是 大 部 分 期 望 学 习 SAS 技 术 的 从 业者 快速 有 效 掌 握 SAS 的 “ 穿 门 ”。 基 于 这 样 的 经 历 和 思考 ， 几 年 以 来 我 一 直 在 构思 这 样 一 本 书 : 
1) 以 书 中 的 章节 结构 来 体现 学 习 SAS 核 心 内 容 的 路 线 图 。 
2) 在 每 个 章节 的 内 容 中 ， 包 含 路 线 图 中 对 应 部 分 的 必要 学 习 资 料 ， 并 且 使 得 读者 在 读 完 相 应 的 内 容 之 后 ， 有 能 力 并 且 了 解 如 何 去 学 习 更 加 深入 和 广泛 的 知识 。 
3) 提供 贴近 实际 应 用 项 目 甚至 有 些 复杂 的 例子 ， 让 读者 领会 解决 实际 问题 的 思路 和 技巧 。 
本 书 就 是 基于 上 述 构思 的 一 个 实现 ， 和 希望 能 够 帮助 大 家 系统 地 掌握 SAs 的 专业 知识 ， 进 而 从 容 地 将 其 应 用 于 商业 实际 中 。 
读者 对 象 
本 书 主要 适合 于 以 下 读者 : 
. 使 用 SAS 进 行 数据 抽取 、 转 换 和 清洗 的 技术 人 员 。 
* 需要 使 用 SAS 对 数据 进行 深入 分 析 和 数据 挖掘 的 分 析 人 员 。 
. 需要 使 用 SAS 进 行 时 间 序 列 预 测 和 优化 决策 的 建 模 专 家 。 
* 使 用 SAS 进 行 项 目 规划 、 实 施 和 管理 的 系统 架构 师 、 系 统管 理 员 和 项 目 管理 人 员 。 


. 团队 的 工作 涉及 SAS 产 品 与 技术 的 管理 人 员 。 


如 何 阅读 本 书 
本 书 共 4 篇 ， 系 统 介 绍 了 SAS 的 核心 技术 模块 和 架构 体系 。 


第 一 篇 介绍 SAS 编 程 和 数据 处 理 (第 1~8 章 ) 。 内 容 包 括 如 何 运用 SAS 进 行 数据 读 入 、 处 理 和 展现 。 掌 握 本 书 的 这 一 篇 内 容 可 以 满足 大 部 分 实际 项 目 中 数据 处 理 的 需要 。 该 篇 建议 刚刚 接触 SAS 的 读者 仔 
细 研 读 ， 对 SAs 编 程 有 全 面 了 解 的 读者 可 以 快速 浏览 或 者 在 需要 时 查阅 。 


第 二 篇 介绍 SAs 统 计 分 析 和 时 间 序 列 预测 (第 9~18 章 ) 。 内 容 既 包括 基本 的 理论 介绍 ， 又 包括 如 何 利用 SAs 去 实现 的 具体 技术 。 该 篇 建议 需要 学 习 数 据 分 析 、 数 据 挖掘 或 进行 预测 的 读者 仔细 阅读 。 


第 三 篇 介绍 SAs 优 化 建 模 (第 19~24 章 ) 。 对 于 从 事 优化 的 读者 来 说 ， 这 一 篇 的 内 容 将 很 有 帮助 。 这 一 篇 对 常见 的 优化 问题 做 了 全 面 的 介绍 。 其 中 的 用 例 非常 贴近 现实 ， 建 议 读者 仔细 研读 。 此 外 ， 建 
议 从 事 优化 的 读者 也 学 习 一 下 第 二 篇 中 第 17 章 关于 时 间 序 列 分 析 的 内 容 ， 因 为 在 实际 优化 工作 中 ， 经 常 需要 预测 。 


第 四 篇 介绍 SAS 智 能 平台 架构 体系 (第 25~28 章 ) 。 对 于 该 篇 内 容 ， 不 需要 像 前 3 篇 一 样 有 深入 的 掌握 ， 但 这 些 内 容 对 于 项 目 规 划 和 架构 设计 人 员 设 计 一 个 满足 安全 性 、 高 可 用 性 和 高 性 能 的 SAs 应 用 会 
非常 有 帮助 。 
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Preface 


Why to write this book 


The world can be described with data and model, and SAS is exactly about these two.SAS has been proved to be a prominent player in data management and advanced analytics field 


worldwide.In China, SAS is also getting widely used in more and more industries, as a result, talent demands of SAS expertise is growing as well. 


However, when speaking of SAS, the first impression is that it is difficult to master.In an afternoon in 2000, not long after | joined SAS, Dr.Luan Shiwu, who was the CTO of SAS 


China, asked me, “How do you feel about SAS? ls it difficult to learn? ” Actually, like the majority of my colleagues, | do not think SAS is difficult to learn.Here are some reasons: 
* SAS provides an explicit roadmap allowing the staff to learn specific domains of SAS in right otdet step by step.That is very helpful since SAS technology is highly systematically and broadly in scope of knowledge. 
* Within each phase of the roadmap, elaborate matetials are provided. 
“ Projects ate available for practice and exercise. 


| believe that the above reasons | mentioned are essential to anyone who wants to learn SAS.Basing on such experience and consideration, | have been conceiving of a book with 


features below: 
:Implement the roadmap of learning SAS core knowledge by organizing chapters of this book. 
“ Provide essential learning matetials cotresponding to each phase of the roadmap in each chapter, so that readers ate able to leatn mote deeply and widely after finishing each part. 
“ Provide examples that were exttacted from business projects fot readetrs so that they can leatn apbtoaches and skills of solving complicated business problems. 


With this book, | hope it can help you master SAS technology systematically, further more you can apply it easily into your professional work. 


Target audience 
This book is mainly for the following people: 
* Practitioners who use SAS to extract, transform and load data. 
* Analysts who take advantage of SAS to do statistical analysis and data mining. 
* Modeling expetts who utilize SAS for time series forecasting and optimization. 
:System atchitects ， System administtatots and project managets who use SAS to plan, implement, and manage projects. 


* Managers whose team” s wotrk involves SAS product and technology. 


How to read this book 


This book consists of four parts, which systematically introduces SAS technology and architecture. 


Part One (Chapter 1-8) is about SAS programming which covers how to use SAS to import, process and present data.After finishing this part, you can handle most of data 


processing work.lt is suggested for new learners to read this part thoroughly, while for experienced users, you can quickly look through or refer to as it when needed. 


Part Two (Chapter 9-18) talks about SAS statistical analysis and time series forecasting, including both fundamentals and specific technology for how to use SAS for 


implementation.People who need to learn data analysis, data mining or forecasting are recommended to read this part. 


Part Three (Chapter 19-24) is about operational research.lt is very useful for those who work on optimization modeling.This part gives fully description on common optimization 
problems with practical examples.In addition, people who work on optimization are suggested to learn Chapter 17of Part Two, which is about time series forecasting, as forecasting 


usually goes along with optimization in actual work. 


Part Four (Chapter 25-28) is about SAS platform architecture.This part is independent from the previous three parts.Project planners and architects will find this part very useful when 


they design a SAS application with high security, high availability, and high performance. 
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本 章 将 从 SAs 系 统 开始 ， 介 绍 Base SAs 的 组 成 部 分 ， 并 以 Windows 环 境 为 例 介绍 SASs 窗 口 环境 、SAs 逻 辑 库 、 数 据 集 、 目 录 (Catalog) 等 SAs 中 常用 的 概念 。 在 了 解 了 这 些 基 础 知识 之 后 ， 会 引导 读者 


使 用 以 上 的 知识 编写 一 段 简 单 代码 ， 提 交 执 行 ， 并 查看 日 志 及 运行 结果 。 最 后 将 用 简短 的 篇 


二 
昌 间 


单 介绍 SAs 最 新 推出 但 将 会 承担 重要 角色 的 SAs studio 的 基本 功能 。 


需要 注意 的 是 ， 本 书 中 描述 的 内 容 会 包括 Windows 和 UNIX (和 Linux) 操作 系统 ， 如 果 在 Windows 和 UNIX 环 境 下 的 操作 或 命令 有 所 不 同 ， 将 会 专门 说 明 。 本 书 内 容 未 专门 考虑 Mainframe， 因 为 其 操 
作 使 用 模式 相差 很 多 ， 而 且 读 者 会 较 少 接触 和 使 用 Mainframe 环 境 ， 但 书 中 对 SAS 软 件 和 产品 的 描述 、 编 程 概念 和 程序 语言 以 及 给 出 的 代码 在 Mainframe 环 境 下 同样 适用 。 关 于 SAS 的 版 本 ， 本 书 是 基于 写 


作 时 发 布 的 最 新 版 SAS 9.4 来 展开 的 ， 除 非特 别 说 明 ， 书 中 内 容 也 同样 适用 于 较 早 的 版 本 SAS 9.3 和 SAS 9.2。 


本 章 对 Base SAS 窗 口 环境 进行 了 着 重 介绍 ， 目 的 在 于 让 读者 学 会 如 何 使 用 SAS 窗 口 环境 开发 、 运 行 SAS 代 码 ， 并 查看 结果 和 检查 代码 运行 日 志 。 但 是 书 中 不 会 介绍 每 个 菜单 、 子 菜单 、 工 具 栏 以 及 其 他 
在 Base SAS 软 件 中 出 现 的 元 素 和 功能 ， 因 为 读者 在 实际 学 习 和 工作 中 可 以 很 方便 地 通过 SAS 软 件 提供 的 帮助 文件 进行 了 解 。 


1.1 ”SAS 系统 简介 
SAS 提 供 了 一 套 集成 的 可 扩展 的 解决 方案 和 使 用 灵活 、 功 能 强大 的 SAS 编 程 语 言 ， 用 于 执行 如 下 任务 : 数据 输入 和 获取 、 数 据 转换 处 理 和 管理 、 报 表 绘 制 和 图 形 、 统 计 和 数学 分 析 、 商 业 规划 、 预 测 、 运 
筹 优化 ， 以 及 应 用 开发 等 。 
SAS 可 以 在 多 种 操作 系统 下 运行 ， 包 括 Windows、UNIX、Linux 以 及 Mainframe 等 。 同 时 ，SAS 程 序 代 码 具 有 很 好 的 移植 性 ， 在 一 种 环境 下 开发 的 SAS 代 码 可 以 在 其 他 操作 系统 下 运行 。 
SAS 系 统 的 核心 Base SAS 由 以 下 部 分 组 成 。 
" DATA 步 : 用 于 处 理 和 管理 数据 。 
. SAS 过 程 (Procedure) : 用 于 分 析 、 处 理 和 制作 报表 。 
“ 可 扩展 和 定制 SAS 软 件 程 序 的 宏 语言 (Macro Facility) : 可 以 减少 程序 文本 ， 使 SAS 程 序 编写 得 更 有 效 且 易于 维护 ， 便 于 编写 更 为 复杂 的 程序 逻辑 。 
` DATA 步 调试 器 : 当 提 交 的 DATA 步 运行 出 错 或 产生 的 输出 结果 与 预期 不 一 致 时 ， 可 以 借助 它 来 跟踪 DATA 步 的 执行 情况 ， 从 而 帮助 发 现 程序 逻辑 中 的 错误 。 
输出 交付 系统 (Outpbut Delivery System，ODS) : 该 系统 会 产生 各 种 易于 访问 的 格式 输出 ， 例 如 ，HTML 文 件 、 传 统 的 列表 输出 、PostScript 文 件 、RTF 文 件 和 输出 数据 集 等 。 
SAS 窗 口 环境 : 它 是 一 个 开发 和 测试 SAS 程 序 的 交互 式 图 形 用 户 界面 ， 本 节 后 面 会 有 更 进一步 的 介绍 。 
这 其 中 ， 前 面 3 个 是 SAS 语 言 的 主要 元 素 ， 本 篇 后 面 的 章节 会 专门 介绍 。 


Base SAS 软 件 提供 数据 处 理 过 程 和 基础 的 统计 过 程 FREQ、MEAN、CORR 及 UNIVARIATE 等 ， 可 以 与 其 他 的 SAS 产 品 一 起 使 用 ， 从 而 实现 更 强大 的 数据 读 取 、 分 析 、 优 化 、 展 示 等 功能 。 下 面 列 出 了 部 
分 常用 的 SAs 产 品 ， 用 于 实现 数据 读 取 、 统 计 分 析 、 优 化 和 信息 展示 等 功能 。 


(1) SAS/ACCESS 接 口 


提供 与 各 种 第 三 方 数 据 源 进行 交互 的 功能 。 例 如 各 种 关系 型 数据 库 ， 诸 如 Oracle、DB2、Teradata 等 ; ERP 系 统 诸如 SAP R/3、PeopleSoft 等 ; 同样 对 于 Hadoop 等 也 有 专门 的 ACCESS 接 口 。 对 于 不 同 
的 数据 源 ，ACCESS 接 口 需要 单独 的 软件 使 用 许可 。SAS 与 第 三 方 的 数据 源 进行 交互 时 ， 将 直接 调用 该 数据 库 或 应 用 厂商 提供 的 客户 端 对 数据 进行 访问 ， 从 而 保证 了 与 数据 访问 的 效率 。 此 外 ，SAS/ACCESS 
还 提供 接口 访问 Microsoft Access 数 据 库 文件 和 Excel 工 作 短 文件 中 的 数据 。 


(2) SAS/GRAPH 


SAS/GRAPH 是 SAS 系 统 的 数据 可 视 化 和 展现 (图形 ) 组 件 ， 用 于 数据 和 信息 展现 ， 并 且 它 可 通过 二 维和 三 维 图 形 (包括 图 表 、 散 点 图 和 地 图 ) ， 可 视 化 地 展现 数据 值 之 间 的 关系 。 还 可 创建 文本 幻灯 
片 、 生 成 各 种 图 形 输出 ， 并 可 提供 实用 程序 和 管理 输出 。 


(3) SAS/STAT 


SAS/STAT 软 件 提供 了 全 面 的 统计 分 析 方 法 ， 共 有 超过 75 个 统计 分 析 过 程 ， 包 括 T 检 验 、 方 差分 析 (ANOVA 过 程 ) 、 聚 类 分 析 (CLUSTER 过 程 、VARCLUSTER 和 FASTCLUS 过 程 ) 、 因 子 分 析 
(FACTOR 过 程 ) 、 回 归 分 析 (REG 过 程 ) 、 逻 辑 斯 蒂 (LOGISTIC 过 程 ) 等 。SAS/STAT 软 件 还 包括 效能 和 样品 容量 分 析 (PSS) 应 用 程序 。 该 软件 不 断 被 更 新 ， 以 反映 新 的 研究 成 果 和 方法 。 


(4) SAS/ETS 

提供 用 于 经 济 计量 分 析 、 时 间 序 列 分 析 和 预测 (ESM 过程 、ARIMA 过 程 和 和 UCM 过 程 等 ) 、 系 统 建 模 与 仿真 (MODEL 过 程 ) 、 离 散 选择 分 析 、 定 性 有 限 因 变 量 模型 分 析 、 时 间 序 列 数据 的 季节 性 调整 、 
财务 分 析 和 报告 、 访 问 经 济 和 金融 数据 库 及 时 间 序 列 数据 的 管理 。 除 了 以 上 过 程 外 ，SASVETS 软 件 还 包括 对 经 济 和 金融 数据 库 以 及 互动 环境 的 无 颖 访问 ， 从 而 进行 时 间 序 列 预测 及 投资 分 析 。 

(5) SAS/OR 


SAS/OR 专 注 于 运筹 与 优化 。SAS/OR 提 供 的 OPTMODEL 建 模 语 言 用 于 构建 、 解 决 和 维护 最 优化 模型 的 建 模 环 境 ， 通 过 OPTMODEL 过 程 的 各 种 求解 器 或 单个 过 程 ， 例 如 OPTLP、OPTMILP、OPTMILP 
过 程 ， 解 决 线性 规划 、 混 合 整数 规划 、 非 线性 规划 等 问题 。 


以 Base SAS 软 件 和 以 上 产品 与 技术 作为 基础 ， 构 建 在 SAS 智 能 平台 (SAS Intelligence Platform) 上 的 SAs 许 多 商业 解决 方案 ， 可 以 帮助 各 类 商业 客户 和 其 他 组 织 机 构 解决 诸多 业务 领域 的 特定 问题 ， 
例如 客户 智能 、 风 险 管理 、 供 应 链 、 和 零售 等 。 关 于 SAS 商 业 解 决 方案 的 内 容 ， 在 本 书 的 第 四 篇 会 有 相应 的 介绍 。 


1.2 ”局 动 SAs 软 件 


SAS 有 多 种 运行 模式 : SAS 窗 口 环 境 模式 、 非 交互 式 模式 、 批 处 理 模式 及 交互 式 行 模式 ， 下 面 会 一 一 介绍 。 除 了 上 面 提 到 的 4 种 模式 外 ，SAs 还 可 运行 在 对 象 服务 器 模式 里 ，SAs 元 数据 服务 器 、 工 作 区 
服务 器 、 存 储 过 程 服务 器 和 OLAP 服 务 器 都 是 属于 这 种 模式 。 关 于 这 些 服务 器 ， 在 本 书 第 四 篇 会 进行 讨论 。 


1.2.1 ”SAS 窗口 环境 模式 


SAS 窗 口 环境 是 SAS 提 供 的 一 种 交互 式 图 形 界面 ， 是 在 Windows 环 境 下 使 用 SAS 编 辑 或 提交 SAS 程 序 语句 最 方便 也 是 最 常用 的 模式 。 在 SAS 窗 口 环境 中 ， 用 户 可 以 通过 程序 编辑 器 编辑 并 提交 SAS 语 句 ， 
程序 语句 的 执行 状态 、 执 行 时 间 等 日 志 信息 及 Put 语句 的 输出 会 显示 在 日 志 窗口 ， 同 时 还 会 提供 在 线 帮助 等 。 本 章 下 一 节 会 使 用 Windows 环 境 下 的 窗口 环境 作为 示例 ， 详 细 介 绍 SAs 窗 口 环 境 的 各 个 窗口 功 
能 及 其 使 用 。 


在 Windows 环 境 下 启动 SAAS 窗 口 环境 和 启动 其 他 Windows 应 用 程序 一 样 有 多 种 方式 ， 可 通过 “开始 ”菜单 里 的 快捷 方式 、 命 令 行 等 方式 进行 。 在 安装 SAS 软 件 时 ，SAS 软 件 安装 程序 会 提示 选择 要 安装 
的 SAS 语 言 版 本 。 如 果 当 前 操作 环境 下 安装 了 多 种 语言 的 AAS， 英文 的 SAS 可 以 通过 “开始 ” 守 “ 程 序 ” 守 SASSAS 9.4 (English) 启动 。 启 动 所 有 语言 (包括 英文 ) 的 SAS 软 件 时 ， 其 快捷 方式 位 于 “ 开 
始 ” 守 “程序 ” 守 SA 字 SAdditional Languages 中 。 例 如 ， 启 动 Windows 操 作 环 境 下 简体 中 文 SAS 软 件 的 快捷 方式 为 : “开始 ”站 “程序 ”站 SASAdditional LanguagesSAS 


9.4 (Chinese (Simplified) ) ， 如 图 1.1 所 示 。 
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图 1.1 启动 简体 中 文 SAS 窗 口 环境 


此 外 ， 还 可 以 使 用 命令 行 方式 启动 SAAS 窗 口 环 境 。 在 下 面 给 出 的 Windows 和 0UNIX 操 作 环 境 下 的 命令 后 ， 都 可 以 指定 其 他 系统 选项 来 定制 要 启动 的 SAS 会 话 。 例 如 ， 选 项 -NODATE 表 示 在 该 SAS 会 话 中 
产生 的 输出 页 面 里 不 显示 日 期 ， 选 项 -CONFIG 指 定 SAS 配 置 文件 ， 以 在 启动 时 加 载 配 置 文件 中 更 多 的 系统 选项 等 。 


. Windows 环 境 





C:\>"C:\Program Files\SASHome\SASFoundation\9.4\sas.exe" 





UNIX 环 境 





#/opt/SASHome/SASFoundation/9.4/sas -dms 


UNIX 环 境 下 的 命令 行车 不 加 选项 -DMS， 则 会 进入 SAS 的 显示 管理 系统 。 当 使 用 Windows 机 器 通过 Telnet 远 程 登 录 SAS 软 件 所 在 的 UNIX 主 机 时 ， 如 果 需 要 使 用 SAS 窗 口 环境 ， 可 以 在 该 Windows 机 器 
上 启动 X-Windows 软件 ， 例 如 Exceed、XMing、Cygwin 等 ， 并 设置 当前 Telnet 会 话 的 DISPLAY 环 境 变 量 到 该 Windows 机 器 上 。 这 样 ， 所 启动 的 SAS 窗 口 环境 会 重 定向 到 该 Windows 操 作 系 统 。 当 启动 
SAS 的 显示 管理 系统 时 ， 在 该 Windows 环 境 下 会 弹出 类 似 的 SAS 窗 口 环境 。 在 初次 使 用 X-Windows 窗口 时 会 有 些 不 习惯 ， 有 些 操作 与 Windows 环 境 下 的 SAS 窗 口 稍 有 差异 ， 但 大 部 分 都 很 类 似 。 


在 UNIX 环 境 下 ， 更 多 使 用 的 是 非 交 互 模式 或 批 处 理 模 式 ， 或 者 其 他 的 工具 。 例 如 ， 可 使 用 Windows 环 境 下 的 客户 端 程序 SAS Enterprise Guide 将 SAS 代 码 提交 到 UNIX 服 务 器 上 。 


1.2.2” 非 交互 模式 


很 多 情况 下 ，SAS 程 序 保存 在 外 部 操作 系统 文件 中 ， 这 时 可 以 在 不 启动 SAS 窗 口 环境 的 情况 下 非 交 互 式 地 提交 该 文件 。 使 用 非 交 互 模式 执行 保存 在 外 部 文件 中 的 SAS 程 序 语句 时 ，SAS 会 打开 该 文件 ， 执 
行 该 文件 中 的 程序 ， 并 将 日 志和 输出 根据 操作 环境 写 入 指定 文件 中 。 当 该 文件 中 的 SAS 程 序 执行 完成 时 ，SAS 自 动 退 出 。 下 面 是 非 交 互 模式 下 使 用 SAS 执 行 外 部 文件 中 的 SAS 程 序 语句 示例 |。 


: 在 Windows 环 境 下 的 示例 如 下 : 


C:\>"C:\Program Files\SASHome\SASFoundation\9.4\sas.exe" -sysin 
C:\sas\code\test.sas -lo0g C:\sas\logs\test.10g -print 
C:\sas\lst/test.1st 


在 UNIX 环 境 下 的 示例 如 下 : 


#/opt/SASHome/SASFoundation/9.4/sas -sysin /opt/sas/code/test.sas -1og /opt/sas 
/logs/test.1og -print /opt/sas/lst/test.1st 





选项 “-sysin” 指 定 SAS 程 序 语句 所 在 的 文件 。 当 要 执行 的 SAS 程 序 语句 文件 紧 接着 sas 命 令 时 ， 该 选项 可 省 略 。 “-log” 指 定 输出 日 志文 件 ，“-print” 指 定 执行 输出 文件 。 


1.2.3” 批 处 理 模式 


在 支持 批 处 理 或 后 台 执 行 的 操作 环境 下 ，SAS 还 可 运行 在 批 处 理 模式 中 。 用 户 可 以 将 上 面 的 一 个 或 多 个 非 交互 模式 中 的 命令 写 入 批 处 理 脚 本 ， 并 保存 在 批 处 理 .bat (Windows 环 境 下 ) 或 .sh (UNIX 环 
境 ) 文件 中 ， 然 后 提交 该 批 处 理 文件 执行 。 当 以 批 处 理 模式 提交 SAs 作 业 时 ， 会 生成 两 个 文件 ， 它 们 分 别 包 含 该 作业 执行 的 SAs 日 志和 输出 。 


下 面 给 出 UNIX 下 的 .sh 文件 内 容 ， 该 批 处 理 文件 提交 了 两 个 SAS 程 序 执行 test.sas 和 test2.sas。Windows 环 境 下 类 似 ， 但 必须 使 用 相应 的 脚本 语法 。 


#!/bin/sh 

cd /opt/sas 

/opt/SASHome/SASFoundation/9.4/sas /opt/sas/code/test.sas -log /opt/sas 
/logs/test.log -print /opt/sas/lst/test.lst & 

wait 
Sleep 15 
/opt/SASHome/SASFoundation/9.4/sas /opt/sas/code/test2.sas -log /opt/sas 
/logs/test2.1log -print /opt/sas/lst/test2.lst & 








wait 


当 使 用 调度 软件 或 操作 系统 调度 命令 对 SAs 作 业 进 行 预定 执行 时 ， 通 常 使 用 该 模式 。 这 样 可 以 让 执行 时 间 较 长 的 SAs 作 业 在 晚间 或 其 他 预定 时 间 执 行 ， 或 根据 业务 需要 定期 自动 执行 。 下 面 给 出 了 在 
Windows 和 UNIX 环 境 下 使 用 操作 系统 计划 或 预定 功能 批 处 理 执行 的 示例 。 在 SAs 商 业 智 能 解决 方案 中 这 种 模式 也 经 常 使 用 ，SAs 智 能 平台 也 提供 了 与 第 三 方 调度 软件 和 操作 系统 调度 服务 的 集成 。 


1.Windows 环 境 


使 用 Windows 提 供 的 任务 计划 程序 ， 依 次 选择 “开始 ” 疗 “ 所 有 程序 ” 辣 “ 附 件 ” 辣 “系统 工具 ” 辣 “任务 计划 程序 ”， 并 指定 任务 要 执行 的 操作 脚本 为 上 面 提 到 的 批 处理 文 件 。 如 图 1.2 所 示 为 在 
Windows“ 任 务 计划 程序 ”中 预定 为 在 每 天 00: 30: 00 执 行 的 SAAS 作 业 ， 所 设 定 操 作 的 启动 程序 为 包含 SAAS 命令 的 .bat 文 件 。 


2.UNIX 环 境 


使 用 crontab 命 令 预定 上 面 提 到 的 批 处 理 文件 。 下 面 的 crontab 文 件 内 容 给 出 了 预定 在 每 天 凌晨 00: 30: 00 执 行 批 处 理 文件 sasjob.sh 中 的 作业 。 


30 00 * * * /bin/ksh /opt/sas/scheduler/sasjob.sh > /opt/sas/scheduler/sasjob.1og 2>&1 


加 任务 计划 程序 
文件 中 ) 操作 以 ) 查看 w) 都 助 0 
和 时 | 身 | 辐 | 加 | 二 


(9 任务 计划 程序 本地) .名称 ” ”| 状态 ” | 前 发 器 下 次 运行 时 间 ”| | | 操作 
各 人 we SS EL rr 全 每 天 的 0:30 ”2013 i :30:00 1 | 任务 计划 程序 库 
加 OFFi caSoftrareProte 硬 创 建 基 本 任务 ... 
| 总 创 早 任 务 .… 

导入 任务 .…. 
显示 所 有 正在 运行 的 任务 
禁用 所 有 性 务 历 史记 录 
新 交 忻 夹 ... 


查看 


刷新 











图 1.2 Windows 环 境 下 的 “任务 计划 程序 ”窗口 


1.2.4 ”交互 式 行 模式 


该 模式 在 UNIX 操 作 系统 中 可 用 ， 是 一 种 较 少 使 用 的 模式 。 但 作为 SAs 支 持 的 启动 模式 ， 在 这 里 也 简单 地 介绍 一 下 。 在 交互 行 模式 下 ， 顺 序 地 输入 程序 语句 ， 所 输入 的 DATA 步 或 PROC 步 当 遇 到 RUN、 
QUIT、 分 号 、 另 一 个 DATA 步 或 PROC 步 ， 或 者 ENDSA9 语 句 时 会 提交 执行 。 同 时 随 着 DATA 步 或 PROC 步 的 提交 ， 这 些 程序 语句 的 日 志和 输出 (如 果 有 输出 的 ) 也 会 立即 显示 。 可 使 用 NODMS3 或 
NODMSEXP 系 统 选项 启动 交互 式 行 命 令 模 式 的 SAs 会 话 。 使 用 NODM 3 选项 的 命令 示例 如 下 : 





#/opt/SASHome/SASFoundation/9.4/sas -nodqms 


后 面 还 可 以 接 其 他 系统 选项 或 使 用 CONFlG 选 项 指定 SAs 配 置 文件 。 按 EOF 键 (Ctrl+D 组 合 键 ) 或 提交 ENDSAS 语 句 将 结束 交互 式 行 命令 模式 的 SAS 会 话 。 示 例如 下 : 


5? enqsas; 





1.2.5 ”配置 文件 和 AUTOEXEC 文 件 


使 用 上 述 任何 一 种 模式 启动 SAS 时 ， 都 可 以 通过 定义 配置 文件 和 AUTOEXEC 文 件 来 定制 SAS 会 话 。 在 这 两 个 文件 中 可 以 指定 系统 选项 和 任何 时 候 启 动 SAAS 会 话 时 自动 执行 的 SAS 语 句 。SAS 系 统 选 项 控制 
SAS 会 话 的 许多 方面 ， 包 括 输出 目的 地 、 程 序 执行 效率 及 SAs 文 件 和 逻辑 库 的 属性 等 。 


SAS 配 置 文件 的 名 称 为 sasv9.cfg，AUTOEXEC 文 件 的 名 称 为 auoexec.sas， 这 些 文件 通常 都 位 于 SAS 的 安装 根 目 录 下 。 在 多 语言 安装 环境 中 ，SAS 根 目录 下 的 nls 目 录 中 还 包括 各 种 语言 适用 的 SAS 配 置 
文件 所 在 目录 ， 例 如 en 是 英文 、zh 是 简体 中 文 、zt 是 繁体 中 文 。 启 动 SAS 时 如 果 不 指定 配置 文件 ， 在 Windows 操 作 环 境 下 ，SAS 会 去 查找 SAS 安 装 根 目录 下 的 sasv9.cfg 文 件 。 通 过 Windows “开始 ”菜单 启 
动 各 种 语言 的 SAS 软 件 时 ，SAS 会 自动 调用 对 应 语言 的 配置 文件 。 而 在 UNIX 操 作 环 境 中 ，SAS 启 动 时 所 使 用 的 配置 文件 是 在 启动 SAS 的 文件 中 指定 的 。 


有 了 时， 也 会 需要 定制 SAS 启 动 时 的 配置 文件 。 一 个 比较 实际 的 例子 就 是 ， 在 很 多 商业 项 目 中 ， 不 希望 SAAS 使 用 其 默认 的 临时 逻辑 库 (逻辑 库 的 知识 会 在 后 面 介 绍 ) WORK， 而 是 希望 将 临时 逻辑 库 
WORK 建 立 在 一 个 高 速 存储 系统 中 ， 以 提高 SAAS 对 某 些 常 用 操作 的 效率 ， 这 时 就 可 以 在 配置 文件 中 指定 临时 WORK 的 物理 位 置 。 


在 Windows 环 境 下 使 用 定制 的 配置 文件 sasv9 custom.cfg 的 示例 如 下 。 在 该 示例 中 ， 假 定 该 文件 位 于 目录 C: \Program Files\SASHome\SASFoundation\9.4 下 (在 UNIX 环 境 下 类 似 ) 。 








C:\> "C:\Program Files\SASHome\SASFoundation\9.4\sas.exe" -config 
"C:\Program Files\SASHome\SASFoundation\9.4\sasv9 custom.cfg" 








系统 选项 AUTOEXEC 用 于 指定 AUTOEXEC 文 件 。AUTOEXEC 文 件 包含 启动 SAS 或 其 他 SAS 进 程 时 自动 执行 的 SAS 语 句 ， 例 如 该 文件 可 包含 一 些 定义 在 SAS 会 话 中 的 经 常 使 用 的 SAS 多 辑 库 的 LIBNAME 语 


SAS 启 动 时 ， 如 果 没 有 指定 AUTOEXEC 或 NOAUTOEXEC 选 项 ，SAS 会 在 当前 目录 、 用 户 目 录 和 SAS 安 装 根 目录 下 查找 AUTOEXEC 文 件 。 可 以 在 启动 SAS 的 命令 行 里 指定 AUTOEXEC 选 项 ， 还 可 以 通过 
SASV9_OPTIONS 环 境 变量 将 该 选项 放 入 配置 文件 里 。 


在 Windows 环 境 下 通过 命令 行 指定 autoexec 文 件 autoexec_custom.sas 的 示例 如 下 。 在 该 示例 中 ， 假 定 该 文件 位 于 目录 C: \Program Files\SASHome\SASFoundation\9.4 下 (在 UNIX 环 境 下 类 
似 ) 。 

















C:\> "C:\Program Files\SASHome\SASFoundation\9.4\sas.exe" -AUTOEXEC 
"C:\Program Files\SASHome\SASFoundation\9.4\autoexec custom.sas" 





1.3 ”SAS 窗口 环境 


SAS 窗 口 环境 是 一 个 开发 、 调 试 和 运行 SAS 程 序 的 交互 式 图 形 用 户 界 面 。 通 过 SAS 窗 口 环 境 ， 用 户 可 以 交互 式 地 编辑 和 执行 SAS 代 码 、 显 示 SAS 日 志 、 查 看 SAS 过 程 的 输出 以 及 在 线 帮助 ， 同 时 还 可 以 通 
过 图 形 界面 操作 数据 和 改变 SAS 系 统 设置 。SAS 窗 口 环境 通常 在 Windows 系 统 下 使 用 ， 所 以 本 书后 面 的 章节 都 将 以 Windows 环 境 下 的 SAS 窗 口 环境 进行 说 明 。 


SAS 软 件 启动 后 的 界面 包括 菜单 、 命 令 框 、 工 具 栏 、 窗 口 、 窗 口 条 以 及 状态 栏 ， 同 时 还 支持 浮动 菜单 、Windows 环 境 快捷 键 (比如 粘贴 快捷 键 Ctrl+C 及 募 贴 板 功 能 ) ， 以 及 Base SAS 软 件 本 身 提供 的 快 
捷 键 (比如 ， 提 交代 码 执行 “F3”) 。 


SAS 菜 单 包括 在 当前 上 下 文 环境 下 可 选择 的 选项 列表 ， 当 正在 使 用 的 窗口 发 生变 化 时 ， 菜 单项 会 随 之 发 生变 化 。 例 如 ， 如 果 当 前 窗口 是 “资源 管理 器 ”， 那 么 菜单 视图 会 显示 在 “资源 管理 器 ”窗口 可 
用 的 视图 选项 。 如 果 “程序 编辑 器 ”是 当前 窗口 ， 那 么 菜单 视图 会 显示 在 “程序 编辑 器 ”窗口 可 用 的 视图 选项 。“ 工 具 栏 ” 则 显示 为 窗口 按钮 或 图 标 。 当 单 击 “ 工 具 栏 ”里 的 工具 项 时 ， 会 产生 对 应 的 功能 
或 动作 。 例 如 ， 单 击 “ 工 具 栏 ”里 打印 机 的 图 标 会 开始 打印 过 程 。 同 样 工具 栏 中 的 可 选 工具 项 也 和 当前 的 活动 窗口 相关 。 命 令 框 位 于 工具 栏 左 侧 。 可 以 在 命令 框 输入 命令 行 ， 例 如 打开 SAs 窗 口 和 获取 帮助 
信息 


下 面 来 介绍 SAS 窗 口 环境 的 6 个 主要 窗口 : “程序 编辑 器 ”、“ 日 志 ”、“ 输 出”、“ 结 果 ”、 “SAS 资 源 管理 器 ”和 “编辑 器 ”。 第 一 次 启动 时 ， 默 认 打 开 的 窗口 为 “程序 编辑 器 ”、“ 日 志 ”、“ 输 
出 ”和 “SAS 资 源 管理 器 ”窗口 ，“ 输 出 ”窗口 隐藏 在 其 他 窗口 后 面 。 所 打开 的 窗口 和 窗口 布局 与 SAS 所 在 的 操作 环境 相关 ， 例 如 ， 在 Windows 环 境 下 ，“ 增 强 型 编辑 器 ”会 代替 “程序 编辑 器 ”。 如 图 1.3 
所 示 为 Windows 环 境 下 Base SAS 软 件 的 窗口 环境 ， 其 中 “结果 ”窗口 和 和 “SAS 资源 管理 器 ”共用 窗口 ， 可 通过 窗口 下 端的 选项 卡 进行 切换 。 提 交 SAS 程 序 执行 完成 后 ， 默 认 的 HTML 输 出 会 展示 在 “ 结 
果 ” 窗 口中 。 


FS [o>] 
文件 @) 编辑 到) 视图) 工具 人 r) 运行 解 天 方案 (6) 窗口 0) 帮助 0 
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图 1.3 ”Windows 环 境 下 的 SAS 窗 口 环境 
在 任 一 时 间 ， 将 只 有 一 个 窗口 处 于 激活 状态 ， 该 窗口 称 为 当前 窗口 或 活动 窗口 ， 可 以 通过 单 击 “ 窗 口 条 ”的 窗口 标签 激活 对 应 窗口 。 在 命令 栏 输 入 相应 命令 并 按 回 车 键 ， 或 在 菜单 视图 的 子 菜单 中 也 可 
以 打开 并 激活 对 应 的 窗口 。 


1.3.1 ”SAS 资源 管理 器 


“SAS 资 源 管理 器 ” (Explorer) 窗口 用 于 管理 该 窗口 环境 中 的 文件 ， 包 括 查 看 SAS 文 件 列 表 、 创 建新 的 SAS 文 件 ， 查 看 、 添 加 或 删除 逻辑 库 ， 创 建 外 部 文件 的 快捷 方式 ， 移 动 、 复 制 和 删除 文件 ， 打 开 
相关 的 窗口 (比如 新 建 逻辑 库 窗口 ) 等 。 该 窗口 最 常用 的 功能 是 管理 逻辑 库 及 逻辑 库 中 的 SAS 文 件 ， 相 关内 容 将 在 1.4 节 介绍 


“SASs 资 源 管 理 器 ”以 树 状 结构 管理 当前 SAs 环 境 中 的 文件 ， 最 上 层 显示 的 图 标 为 “逻辑 库 ”、 “文件 快捷 方式 ”、“ 收 藏 夹 ” 和 “计算 机 ”， 如 图 1.3 所 示 。 可 以 通过 双击 每 个 图 标 进入 其 下 层 的 内 容 
或 打开 一 个 文件 。 如 果 当 前 不 在 最 上 层 ， 可 以 通过 菜单 “视图 ” 阅 向 上 一 级 ， 或 工具 栏 上 的 工具 项 自 ， 返 回 至 上 一 级 。 还 可 通过 菜单 “视图 ” 闻 显 示 树 状 结构 打开 两 级 窗口 。 


“SAS 资 源 管理 器 ”窗口 可 通过 在 命令 框 中 输入 EXPOLORE 并 按 回 车 键 来 打开 ， 或 者 选择 菜单 “视图 ”* “SAS 资 源 管理 器 ”打开 。 


1.3.2 程序 编辑 器 


“程序 编辑 器 ” (Program Editor) 窗口 用 于 输入 、 编 辑 、 提 人 交 和 保存 SAs 程 序 。 该 窗口 还 可 通过 在 命令 框 输入 PROGRAM 或 PGM 并 按 回 车 键 来 打开 ， 或 者 选择 菜单 “视图 ”* “程序 编辑 器 ”打开 。 
默认 设置 下， 在 “程序 编辑 器 ”窗口 中 ， 代 码 提 交 后 就 会 被 清除 ， 可 在 命令 框 中 输入 recall 重 新 显示 。 可 通过 修改 如 下 设置 来 取消 清除 代码 : 在 当 “ 程 序 编辑 器 ”窗口 为 活动 窗口 时 ， 选 择 菜单 工具”* 
“选项 ”人 “程序 编辑 器 ”打开 的 “程序 编辑 器 选项 ”对 话 框 的 “编辑 ”选项 不， 取消 勾 选 “提交 时 清除 文本 ”选项 。 此 外 ， 在 该 对 话 框 中 还 可 以 修改 其 他 设置 。 


在 Windows 环 境 下 ， 默 认 打开 的 “程序 编辑 器 ”窗口 为 “增强 型 编辑 器 ”。 “增强 型 编辑 器 ”具有 更 加 丰富 的 功能 ， 可 折 双 和 展开 代码 段 ， 还 可 以 通过 设置 使 其 在 窗口 左 侧 边缘 显示 行 号 。 可 通过 在 命 
令 框 输入 wnextedit 或 wpgm 并 按 回 车 键 来 打开 或 切换 “增强 型 编辑 器 ” ， 或 者 选择 菜单 “视图 ”* “增强 型 编辑 器 ”打开 。 


在 编辑 器 中 输入 的 SAs 程 序 代码 可 保存 到 文件 系统 的 文件 中 。 
1.3.3. 日志 


“日 志 ” (Log) 窗口 可 查看 当前 SAs 会 话 和 SAs 程 序 的 消息 。 如 果 提 交 的 程序 产生 意外 结果 ， 日 志 消 息 会 提示 错误 信息 ， 可 以 帮助 找 出 SAs 程 序 或 设置 的 错误 。 如 果 SAs 程 序 中 有 PUT 语句 ， 那 么 该 输 
出 默认 会 写 到 SAs 日 志 中 。 在 命令 框 输入 LOG 并 按 回 车 键 ， 或 选择 菜单 “视图 ” 疗 “ 日 志 ”， 可 打开 “日 志 ” 窗 口 。 日 志 同 样 也 可 保存 到 文件 系统 中 ， 以 便于 以 后 查看 。 作 为 SAs 开 发 或 使 用 人 员 ， 要 养 成 
每 次 代码 提交 执行 完成 后 首先 检查 SAs 日 志 的 习惯 。 


1.3.4 结果 


通过 “结果 ” (Results) 窗口 可 查看 在 该 窗口 环境 提交 的 SAS 代 码 的 输出 列表 。 在 SAS 9.4 中 ， 默 认输 出 为 HTML 格 式 。 “结果 ”窗口 以 树 形 结构 列 出 SAs 程 序 代 码 执 行 后 产生 的 输出 。 提 交 SAs 代 码 
后 ，HTML 内 容 显 示 在 “结果 浏览 器 ”窗口 ， 文 件 名 称 展示 在 “结果 ”窗口 中 。 可 以 查看 、 保 存 或 打印 单个 结果 文件 。 


在 命令 栏 输入 ODSRESULTS 并 按 回 车 键 ， 或 者 选择 菜单 “视图 ”站 “结果 ”， 可 打开 “结果 ”窗口 。 
1.3.5 ”输出 


可 通过 “输出 ” (Output) 窗口 查看 SAs 程 序 的 列表 (LISTING) 输出 。 默 认 情况 下 ，“ 输 出 ”窗口 位 于 其 他 窗口 后 面 。 当 SAs 程 序 产生 了 列表 输出 时 ，“ 输 出 ”窗口 会 自动 移动 到 显示 前 面 。 可 在 命 
令 栏 输入 OUTPUT、OUT、LISTING 或 LST 并 按 回 车 键 来 打开 “输出 ”窗口 ， 或 者 选择 菜单 “视图 ”上 “输出 ”打开 。 


从 SAS 9.3 开 始 ，SASs 的 默认 输出 从 列表 输出 变 成 了 HTML。 可 以 通过 ODS 语句 打开 列表 输出 ， 产 生 列 表 输 出 的 同时 也 会 生成 HTML， 不 再 需要 列表 输出 时 可 再 使 用 相应 的 ODS 语句 关闭 该 类 型 输出 。 还 
可 使 用 菜单 “工具 ”站 “选项 ”站 “参数 选择 ”对 话 框 的 “结果 ”选项 卡 ， 选 择 输出 类 型 和 设置 系统 参数 ， 参 数 选 择 对 话 框 的 默认 设置 如 图 1.4 所 示 。 勾 选 “ 创 建 列 表 ” 复 选 框 会 打开 SASs 软 件 的 列表 输出 ， 
还 可 选择 HTML 的 样式 ， 默 认为 HTMLBlue。 
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图 1.4 结果 参数 设置 


1.4 SASs 文 件 和 逻辑 库 


在 熟悉 了 SAS 窗 口 环境 后 ， 接 下 来 了 解 一 下 SAS 文 件 和 和 SAS 管理 文件 的 方式 。SAS 文 件 是 指 由 SAS 创 建 、 维 护 和 管理 ， 并 且 SAS 知 道 其 结构 的 文件 ， 例 如 SAS 数 据 集 、 目 录 (Catalog) 等 。 通 常 这 些 文 件 
也 表现 为 操作 环境 中 的 文件 ， 操 作 环 境 也 会 对 它们 进行 管理 。 所 有 的 SAS 文 件 都 存在 于 SAS 逻 辑 库 中 。SAS 多 辑 库 用 于 组 织 、 查 找 和 管理 SAS 文 件 。 在 SAS 中 ， 通 过 该 文件 所 在 逻辑 库 及 文件 名 来 使 用 SAS 文 
人 ts 


SAS 数 据 集 由 SAS 创 建 和 管理 ， 是 SAS 存 储 和 处 理 数据 的 主要 方式 。 根 据 其 文件 是 否 包含 数据 值 分 为 SAS 数 据 文件 和 SAS 视 图 。SAS 数 据 文件 和 和 SAS 视图 可 以 简单 理解 为 与 我 们 经 常 使 用 的 数据 库 管 理 系 
统 中 的 表 和 视图 。 关 于 SAs 逻 辑 库 和 数据 集 将 在 第 2 章 进行 更 详细 的 讲解 。 


SAS 目 录 (Catalog) 是 一 种 特殊 的 SAS 文 件 ， 以 目录 项 的 形式 存储 多 种 不 同类 型 信息 。 一 个 SAS 目 录 可 包含 多 种 类 型 的 目录 项 ， 这 些 目录 项 包含 系统 信息 (例如 功能 键 定义 ) 和 应 用 程序 信息 (例如 窗 
口 定义 、 帮 助 窗 口 、 格 式 (Format) 、 读 入 格式 (Informat) 、 宏 (Macro) 或 图 形 输 出 ) 。 


下 面 通过 “SAs 资 源 管理 器 ”窗口 浏览 SAs 逻 辑 库 及 SAS 文 件 。 启 动 SAs 窗 口 环境 ， 在 “SAs 资 源 管理 器 ”窗口 双击 “逻辑 库 ”Ysashelp。 如 图 1.5 所 示 的 界面 给 出 了 当前 环境 下 SAs 系 统 中 的 逻辑 库 : 
Maps、Mapsfgk、Mapssas、Sashelp、Sasuser 和 Work。 逻 辑 库 Sashelp 中 的 SAs 文 件 如 图 1.6 所 示 ， 罩 图 标 为 数据 集 ， 昌 图标 为 9As 目 录 。3SAsS 目 录 还 可 打开 显示 更 小 的 单元 目录 项 。 
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图 1.5 ”SAS 逻辑 库 








Adsmse 和 具 上 总 呈 至 






Ns sena Mesl st 放心 泊 息 













Bavi tem BdylLd3 pdvmeth 
了 | 


@ SAS 资源 管理 


图 1.6 SAS 数 据 集 和 目录 












SAS 除 了 可 以 处 理 SAs 文 件 外 ， 还 可 以 处 理 外 部 文件 和 数据 库 管 理 系统 (Database Management System，DBMS) 文件 。SAs 处 理 的 外 部 文件 指 由 操作 系统 管理 和 维护 的 数据 或 文本 文件 。 外 部 文件 
通常 用 于 存储 SAS 需 要 处 理 的 原始 数据 、SAS 程 序 语句 和 过 程 运行 结果 (HTML，PDF 格 式 ) 等 ，SAS 有 时 也 会 将 一 些 结果 写 入 外 部 文件 。 同 时 ，SAS 还 可 以 通过 特定 的 SAS/ACCESS 接 口 软件 从 其 他 厂商 的 
软件 系统 (例如 数据 库 管理 系统 (DBMS) ) 文件 中 读 取 和 写 入 数据 。 通 过 SAS/ACCESS 接 口 软件 建立 到 DBMS 的 SAS 风 辑 库 后 ，SAS 软 件 可 以 像 访问 SAS 数 据 集 一 样 访 问 DBMS 中 的 表 。 


1.5 一 个 简单 的 SAS 程 序 


在 了 解 了 SAS 窗 口 环境 并 简单 了 解 了 SAS 逻 辑 库 、 数 据 集 这 些 基础 概念 后 ， 就 可 以 在 SAS 窗 口 环境 编辑 一 个 简单 的 SAS 程 序 ， 提 交 运 行 并 查看 结果 了 。SAS 程 序 由 DATA 步 和 过 程 步 组 成 。DATA 步 由 关键 
字 DATA 开 始 ， 过 程 步 由 关键 字 PROC 开 始 。 当 然 SAS 程 序 还 可 以 包括 宏 语言 ， 这 个 会 在 本 篇 后 面 的 章节 中 专门 介绍 。 


启动 SAS 窗 口 环境 ， 在 “程序 编辑 器 ”窗口 输入 下 面 的 代码 。 


lipbname saslib base 'c:\sas\data'; 
data saslib.Inventory; 
input Product ID $ Instock Price; 
datalines; 
POO1R 12 125.00 






































proc print data= saslib.inventory; 
run; 





代码 前 面 的 部 分 之 前 已 经 介绍 过 。LIBNAME 语 句 定义 物理 路 径 在 c: \sas\data 的 SAS 逻 辑 库 saslib。DATA 步 创建 存储 在 逻辑 库 saslib 下 的 SAS 数 据 集 Invertory， 其 中 包含 3 个 变量 ( 列 ) ， 分 别 为 
Product ID、Instock 和 Price。 在 DATA 步 中 SAS 会 读 取 紧 接着 DATALINES 语 句 并 以 分 号 结束 的 4 行 输入 数据 ， 每 行 数据 按 顺 序 赋值 给 前 面 3 个 变量 。PRINT 过 程 会 在 结果 查看 器 中 打 EjDATA 步 创建 的 数据 


集 Inventory 中 的 数值 。 

在 输入 代码 后 ， 保 证 该 “程序 编辑 器 ”窗口 为 活动 窗口 ， 然 后 选择 菜单 “文件 ” 守 “保存 ”， 单 击 “ 工 具 栏 ”的 工具 项 晶 或 按 快 捷 键 Ctrl+S 保 存 所 输入 的 SAS 程 序 语句 为 “测试 程序 ”。 当 前 的 窗口 环 
境 如 图 1.7 所 示 。 这 时 要 保证 c: \sas\data 文 件 夹 存在 ， 如 果 没有 ， 在 对 应 的 目录 创建 一 个 ， 否 则 在 “日 志 ” 窗 口 会 提示 错误 及 错误 信息 。 选 择 菜单 “运行 ” 守 “ 提 交 ”， 或 单 击 “ 工 具 栏 ” 中 的 工具 项 关 、 
按 快捷 键 F3 提 交代 码 。 

默认 情况 下 代码 提交 执行 后 ， 包 含 运行 结果 的 文件 HTML 会 产生 ， 并 自动 显示 为 当前 活动 窗口 ， 而 主 窗口 左 侧 则 会 显示 结果 列表 ， 如 图 1.8 所 示 。 

在 图 1.8 中 ， 数 据 集 Inventory 的 观测 值 和 变量 以 表 的 形式 展现 在 了 HTML 格 式 的 “结果 查看 器 ”中 。 其 中 ，“SAS 系 统 ” 字 样 是 SAS 系 统 默 认 标 题 。 可 以 在 PRINT 过 程 之 前 使 用 TITLE 语 句 指定 输出 标题 
或 在 PRINT 过 程 中 指定 标题 ， 通 常 我 们 会 指定 有 意义 的 文字 ， 比 如 “仓库 库存 ”。 指 定 的 标题 在 整个 SAS 会 话 期 间 一 直 有 效 ， 如 果 要 使 用 其 他 输出 标题 或 恢复 默认 标题 ， 可 以 再 次 使 用 TITLE 语 句 指定 。 此 
外 ， 还 可 以 指定 结果 的 多 级 标题 和 脚注 ， 这 里 不 袭 述 。 





文件 四 ， 编 给 E) 视图 WW) 工具 (7) 运行 各 ) 解 志方 案 6) 窗口 W) 闭 助 00 


> ee a I VN lL, 


SAS/ETS 12.3 tmaintenmnance) 
SASAOR 12.3 tmaintenancey 
SASFINML 12.3 tmaintenance} 
SASAOC 12.9 (mnaintenancey 


HOTE: Additional host information: 


NGL S08R2 WIN 6.1.7601 Service Pack 1 Server 


NOTE: er 本 抬 化 所 用 时 间 : 


a ] 间 gh 


EE 


libname loclib base ‘cAsashdata;: vv 国 


Edata loclib, Lrmrentory: 
input Product_ID $ Instock Price. 
dataliness: 
POOIR 12 125. 00 
POO03T 34 40.00 
PE301 23 500.00 
PCO2N 12 100.00 


Sproc print data= loclib, inventory: 





图 1.7 编辑 SAS 程 序 代码 


文件 F) 编辑 E) 视图 WW) 转 至 (6) 工具 0) 解决 方案 G) 窗口 W) 帮助 00 


ee 有 | 名 是 区 全 | 辣 风 QH8Onm|D 
[TT SECT -SL 


时 结果 
由 全 Frint: SAMS 系统 SAS 系统 


Product ID | Instock | Price 
| POOTR 

POO3T 

P301M 

PCO2M 





图 1.8 SAS 程 序 运行 


可 以 通过 “结果 ”窗口 的 条 目 在 “结果 查看 器 ”的 HTML 文 件 中 导航 。 在 图 1.8 所 示 的 “结果 ”窗口 展开 “Print: SAs 系 统 ”， 并 单 击 HTML 条 目 ， 该 条 目 对 应 的 结果 会 自动 展示 在 “结果 查看 器 ”的 当 
前 位 置 。 


在 代码 运行 过 程 中 ， 运 行 日 志 会 显示 在 “日 志 ” 窗 口 。 单 击 窗口 条 的 “日 志 - (无 标题 ) ”可 显示 日 志 信息 ， 如 图 1.9 所 示 。 日 志 中 给 出 了 语句 执行 结果 、DATA 步 中 生成 数据 集 的 观测 数 ( 行 ) 和 变量 数 
( 列 ) ， 以 及 PROC 步 读 取 的 观测 数 ， 还 有 运行 所 有 DATA 步 和 PROC 步 所 花费 的 实际 时 间 和 CPU 时 间 。 志 ” 窗 口 还 可 显示 程序 中 的 PUT 语句 输出 ， 这 个 在 本 示例 中 没有 涉及 。 


图 日志 - 《无 标题 ) 


1 libname lo0oclib base “cc:\sas\data”: 


my 功 分 配 逻 袜 库 引 用 名 “L0GLI8”， 如 下 所 水: 


BASE 


物理 名 : Cc:\5a5\data 


data loclib.Inventory; 
input Product ID $ Instock Prices 
datalines: 


NOTE : 类" 据 集 LOCLIB .INUENTORY 4 个 观测 和 3 小 变量 。 


NOTE: “DATA ;得 句 ? 所 用 时 间 (总 处 8]) : 
实际 时 间 


CPU 时 | 


13 proc print data= 1Locllb-Inuentaocuy ; 


NO0TE: 正在 写 六 HTHL Body 【主体 ) 故人 忻 : sashtml -ht 


14 runs 


NOTE: 从 数据 集 LOCLIB.INVENTORY 。 读 取 了 4 小 观测 
NOTE: “PROCEDURE PRINT” 所 用 时 间 i 
实际 时 间 1- 皮 种 

















图 1.9 SAS 代 码 运 行 日 志 信 息 


@ 注 意 ”要 养 成 提交 代码 运行 后 首先 查看 “上 日志” 窗口 信息 的 良好 习惯 ， 检 查 日 志 中 是 否 有 错误 或 警告 信息 。 很 多 时 候 ， 特 别 是 当 提 交代 码 量 较 大 时 ， 即 使 前 面 的 DATA 步 或 PROC 步 运行 失败 ， 后 续 代 
码 语句 仍然 会 继续 运行 ， 但 是 可 能 会 导致 不 正确 的 结果 。 所 以 必须 检查 日 志 中 是 否 有 需要 注意 的 错误 或 警告 信息 。 


接 下 来 看 看 “输出 ”窗口 。“ 输 出 ”窗口 展示 SAS 会 话 期 间 SAS 语 句 的 列表 输出 。SAS 窗 口 环境 默认 不 产生 列表 输出 。 尝 试 在 上 述 代码 的 基础 上 稍 作 修改 : 改变 输出 标题 和 产生 列表 输出 ， 并 在 PRINT 过 
程 后 关闭 列表 输出 。 修 改 后 的 代码 如 下 : 


lipname saslib base 'c:\sas\data'; 

data saslib.Inventory; 
input Product ID $ Instock Price; 
datalines; 

POO1R 12 125.00 

P003T 34 40.00 

P301M 23 500.00 

PCO2M 12 100.00 






































ods listing; 

title ' 仓 库 库存 '; 

proc print data= saslib.inventory; 
UN 

ods listing close; 


提交 运行 后 ， 在 默认 打开 的 “结果 查看 器 ”中 ，HTML 文 件 在 包含 本 次 代码 输出 的 同时 ， 还 包含 了 上 次 提交 代码 产生 的 输出 。 在 “结果 ”和 “结果 查看 器 ”窗口 都 可 以 看 到 第 二 次 运行 结果 的 标题 为 我 
们 在 程序 代码 里 指定 的 “仓库 库存 ”。 展 开 结果 窗口 的 叶子 节点 ， 还 可 以 看 到 第 二 次 提交 的 代码 产生 了 两 类 输出 : HTML 和 输出 和 列表 输出 。 单 击 最 后 一 个 条 目 或 单 击 窗口 条 的 “输出 - (无 标题 ) ”打开 所 产 
生 的 列表 输出 ， 可 以 看 到 数据 集 数据 也 输出 到 了 输出 窗口 ， 如 图 1.10 右 下 窗口 所 示 。 


Shs 
康 件 呈 】 编辑 正 ) 视图 工具 CT 解 来 方案 6] 窗口 帮助 00 
jw 可 | 口感 园 | 男 区 | 站 辆 是 呈 | 部 大 芭 | 四 密 





结果 | 

辣 Print: ShS 系 师 SAS 系统 
加 pi 仓库 库存 

日 节 名 捐 二 LOCITB TIWETORT Product_ID Instock 


FUU1R 
POO3T 

P301M 
PCO2NI 


仓库 库存 


Product TD lnstock 

| POO1R 12 
P003T 34 
P301M 23 

| PC02M 12 


库 库 仓 2819 年 18 月 26 日 星期 六 


Product 
tbs IbD Instock 


PBOIR 
P663T1 
P361H 
PEG2H 





图 1.10 ”定制 标题 和 列表 输出 


到 这 里 ， 已 经 了 解 如 何在 SAS 窗 口 环境 中 编辑 一 个 简单 的 SAS 程 序 、 提 交 SAS 程 序 并 检查 SAS 程 序 的 运行 日 志 、 查 看 结果 和 输出 。 下 面 来 看 看 基于 SAS 9.4 发 布 的 男 一 可 以 交互 方式 提交 SAS 程 序 语 句 的 
Web 应 用 SAS Studio。 


1.6 SAS Studio 
SAS Studio 是 基于 HTML5 客 户 端 /服务 器 结构 的 Web 应 用 。 通 过 SAS Studio， 用 户 能 够 以 使 用 与 SAS 窗 口 环 境 类 似 的 方式 提交 SAS 程 序 语句 ， 运 行 并 获取 结果 ， 同 时 它 还 提供 交互 方式 指导 用 户 完 成 分 
析 过 程 。 


用 户 通 过 SAs Studio 编 写 的 代码 或 图 形 界面 产生 的 分 析 过 程 会 提交 到 本 地 或 远程 的 SAS 软 件 上 执行 ， 结 果 返 回 SAS Studio 客户 端 。 这 种 特性 会 使 SAs studio 承担 SAs 的 PaaSs (Platform as a Service, 
平台 即 服务 ) 中 重要 角色 ，SAS Studio 也 会 集成 到 SAS 云 基础 设施 中 。 


该 产品 有 着 丰富 的 操作 界面 ， 这 里 简单 了 解 一 下 。SAS Studio 3.1 的 窗口 如 图 1.11 所 示 ， 其 中 包含 以 下 3 个 部 分 : 
“ 窗口 顶部 ， 包 含 在 SAS Studio 中 开发 的 应 用 程序 名 称 和 应 用 程序 按钮 。 应 用 程序 名 称 如 图 1.11 中 的 “程序 1.sas”、 “分 布 分 析 1” 和 “直方 图 1” 
. 窗口 的 左 侧 是 具有 多 个 可 折 肥 条 目的 导航 面板 。 导 航 面板 提供 的 条 目 包 含 “ 搜 索 、“ 文 件 夹 ”、“ 任 务 ”、“ 代 码 段 、“ 逻 辑 库 ”和 “文件 快捷 方式 ”。 


. 右 侧 窗口 (工作 区 ) 包括 主要 的 选项 卡 ， 可 以 显示 SAS 表 ， 文 本 文件 (例如 ，SAS 程 序 文件 ) 、 任 务 等 ， 显 示 哪 一 个 取决 于 当前 执行 的 操作 。 


SAS” Studio 


关 件 天 





殴 积 序 1583 x | 由 分 布 分 析 1 x | 如 直方 图 1 x 











代码 ”| 目 志 结果 | 
只 - 半 而 宁 国人 6 世 式 -日 归 人 i 蝇 IDa 人 | is | 站 这 | 音 可 | 中 
b 各 文件 夹 快捷 方式 libname saslib base 'c:\sas\data'; 
“ 移 找 的 文件 夫 ta saslib.Inventory; 
饮 程 序 1sas input Product ID $ Instock Price; 
贸 Desktop datalines; 
POO1R 12 125.00 
和 Documents p003T 34 40.00 














图 1.11 SAS Studio 开 发 SAS 程 序 


选择 数据 源 和 分 析 变 量 ， 最 右 侧 子 窗口 会 显示 自动 生成 的 代码 。 该 代码 可 保存 为 代码 段 或 直接 提交 到 SAS 服 务 器 执行 生成 直方 图 。 


SAS "Studio 





级 程序 15as x | 出 分 布 分 析 1 x | 直方 图 1 x 


























设置 代码 站 果 折 分 | 藉 回 民 | 国志 画 国 
4 D9- = 疗 写 
“五 失 过 所 特 4 SASHELP.SHOES 眼 和 一 a 
隐 描述 数据 特征 > + EF: "Mon Nov 25 2013 12:44:16 GMT: 
地 分 布 分 析 4 角色 加 * 生成 人 房 : " 只 
贡 二 上 竺 成 贸 务 属 : 2 ~” 
se 分 析 变 量 : (1 多 下 十 图 * EW saAS FE: "X64 _ SOBR2 WIN” 
围 单 内 子 频 数 因 sales 站 * 人 革 成 SAS 版 赤 : "9.04.01M1P11212013” 
蕊 汇 总 统计 量 一 一 一 0 * 生成 其 伦 至 : “Mozilla/5.0 (Windows NT 6.1 
” 固 计量 经 济 学 > ye 侍 成 Web 蔡 户 纹 : 
4 妥 图 形 3 +/ 
ul 条 形 图 14 | 
上 条 线 图 Si/* Option group 5 (GRAPH SIZE) parameters 
1 条 续 图 El/*-—-Set Graph Size (In inches)--*/ EF- 
ul 直方 图 EDiodas graphics / reset width=6.4in height=4 
YN 线 图 18 
= 9i/*——SGPLOT proc statement-—-*/ 
中 氏 图 20aproc sgplot data=SASHELP.SHOES; 
总 丈 点 图 i /*——Histogram settings——*/ 
I 序列 图 四 histogram Sales /; 
24| /*--Vertical or Response Axis--*/ 








-全 yaxis grid; 
26Irunz| 
《4 


图 1.12 SAS Studio 生 成 直方 图 


1.7 ”本 章 小 结 


学 习 了 本 章 内 容 后 ， 相 信 读 者 对 SAS 软 件 、SAS 在 Windows 和 和 UNIX 环 境 下 的 各 种 启动 方式 ， 以 及 对 SAS 编 程 1DE 环 境 ( 即 SAS 窗 口 环境 和 SAS Studio) 已 经 有 了 一 些 初步 的 了 解 ， 这 会 为 后 面 的 学 习 打 


下 基础 ， 可 方便 读者 更 加 深入 地 学 习 SAS 软 件 ， 并 熟练 使 用 SAS 窗 口 环境 完成 数据 处 理 和 分 析 任 务 等 。 


第 2 草 "” 读 取 外 部 数据 到 SAS 数 据 集 


SAs 提 供 丰 富 的 数据 处 理 和 分 析 方 法 来 解决 各 种 商业 问题 ， 但 在 使 用 这 些 方法 之 前 ， 往 往 需要 首先 将 各 种 形式 的 数据 转换 成 SAs 数 据 集 。 如 图 2.1 所 示 是 在 SAs 中 从 原始 数据 到 最 后 生成 有 价值 信息 的 过 
程 示意 图 。 可 以 看 出 ， 在 这 个 过 程 中 ， 首 要 工作 是 将 需要 分 析 的 原始 数据 转换 成 SAs 数 据 集 ， 然 后 才 是 运用 各 种 PROC 步 对 数据 集 里 的 数据 进行 处 理 和 分 析 ， 最 后 将 分 析 结 果 以 适当 的 形式 展现 出 来 。 


A YN 
A ~ 
要 分 析 的 和 
> 局 好 数据 ~ ) : 本 
(0 区 展现 数据 分 析 和 信息 
-A a 





DATA 步 |/ 





于 分 析 结 盯 
SAS 语 名 
f 
PROC 步 ) 
SAS 过 程 语句 ”一 





图 2.1 数据 分 析 处 理 过 程 


本 章 在 介绍 SAS 编 程 过 程 中 经 常 使 用 的 SAAS 多 辑 库 、SAS 数 据 集 、 系 统 选项 以 及 SAS 程 序 结 构 等 基本 概念 之 后 ， 将 会 重点 讲解 如 何 开 发 SAS 程 序 读 取 外 部 数据 源 中 的 原始 数据 ， 创 建 SAS 数 据 集 。 最 后 简 
单 介绍 在 SAS 程 序 开发 中 常见 的 几 种 错误 现象 及 其 处 理 方 法 。 


2.1 SAS 编程 基本 概念 


在 SAs 系 统 中 ，SAs 程 序 是 用 来 获取 外 部 数据 、 处 理 和 管理 数据 ， 并 对 其 进行 分 析 预 测 和 优化 ， 从 而 生成 信息 报告 的 重要 工具 。 在 学 习 开发 SAs 程 序 之 前 ， 首 先 需要 理解 两 个 基本 概念 : SAS 数 据 集 和 风 
辑 库 ， 包 括 它 们 的 命名 、 引 用 、 类 别 等 ; 然后 得 了 解 SAS 中 会 经 常 使 用 的 系统 选项 ， 这 些 系统 选项 让 SAS 的 分 析 处 理 功 能 既 灵活 又 强大 。 


2.1.1 SAS 逻 辑 库 


SASs 逻 辑 库 是 一 个 或 多 个 SAs 文 件 的 集合 ， 用 于 组 织 、 查 找 和 管理 SAS 文 件 。SAs 逻 辑 库 管理 的 SASs 文 件 包 括 SAs 数 据 集 、SAs 目 录 、 已 编译 的 SAs 程 序 ， 以 及 多 维 数据 库 文 件 等 。 在 Windows 和 UNIX 环 
境 中 ，SAS 逻 辑 库 通 常 是 包含 在 同一 个 文件 夹 或 目录 下 的 一 组 SAs 文 件 ， 其 他 文件 也 可 以 存储 在 该 文件 夹 或 目录 下 ， 但 只 有 具有 SAs 文 件 扩展 名 的 那些 文件 会 被 认为 是 该 SAs 逻 辑 库 的 一 部 分 。 在 其 他 操作 系 
统 下 ，SAs 逻 辑 库 有 不 同 的 实现 方式 ， 但 通常 都 对 应 于 当前 操作 系统 用 来 访问 和 存储 文件 的 组 织 级 别 。 例 如 在 zZ/Os (OS/390) 操作 系统 下 ，SAS 逻 辑 库 是 只 能 存储 SAS 文 件 的 特殊 格式 化 了 的 主机 数据 集 。 
尽管 实现 方式 不 一 样 ， 但 在 SAS 支 持 的 各 种 操作 系统 下 ，SAS 风 辑 库 的 使 用 方式 是 相同 的 。 


还 有 一 种 SAS 逻 辑 库 ， 叫 作 元 数据 边界 逻辑 库 (metadata-bound library) ， 是 绑 定 在 由 元 数据 提供 安全 访问 控制 的 对 应 表 对 象 上 的 物理 逻辑 库 。 元 数据 边界 逻辑 库 里 的 每 个 物理 表 都 有 指向 特定 元 数 
据 对 象 的 信息 ， 同 时 还 创建 了 物理 表 和 元 数据 对 象 之 间 的 安全 性 绑 定 。 该 绑 定 保证 了 用 户 在 访问 该 物理 表 时 ，SAS 强 制 执行 元 数据 层 权限 要 求 ， 从 而 避免 从 操作 系统 直接 访问 该 物理 表 导致 的 安全 问题 。 这 
种 SAS 钦 辑 库 在 SAS 智 能 分 析 平 台中 可 用 ， 在 本 章 不 作 介绍 。 


1. 逻 辑 库 关联 


可 以 通过 LIBNAME 语 句 、LIBNAME 浮 数 、 使 用 “新 建 逻辑 库 ” 窗 口 或 操作 环境 命令 来 定义 逻辑 库 ， 并 将 SAS 逻 辑 库 与 对 应 的 逻辑 库 引 用 名 关联 起 来 。 之 后 便 可 以 通过 该 逻辑 库 引 用 名 来 读 取 、 写 入 并 
更 新 SAS 逻 辑 库 中 的 SAS 文 件 。 使 用 LIBNAME 语 句 定 义 SAS 逻 辑 库 的 简化 语法 如 下 : 


















































LIBNAME 逻辑 库 引 用 名 < 逻辑 库 引 擎 > "逻辑 库 物 理 位置 ' ; 




















(1) 逻辑 库 引 用 名 

在 定义 SAS 逻 辑 库 时 需要 指定 逻辑 库 引用 名 ，I 临 时 逻辑 库 WORK 除 外 。SAs 逻 辑 库 引用 名 的 命名 规范 如 下 : 
` 最 大 长 度 是 8 个 字符 。 

` 必须 以 字母 《从 A~ 乙 ， 大 小 写 均 可 ) 或 下 划 线 (_) 开始 。 


` 可 以 是 数字 (0~9) 、 字 母 和 下 划 线 〈(_) 的 任意 组 合 


例如 ， 下 面 的 SAs 语 句 定 义 了 SAs 逻 辑 库 ， 其 引用 名 为 saslib。 


lipname saslib base 'c:\sas\data',; 


@ 注 意 SAS 罗 辑 库 与 SAS 罗 辑 库 引 用 名 是 两 个 比较 容易 混 消 的 概念 。SAS 逻 辑 库 是 SAS 文 件 的 集合 ，SAS 文 件 是 其 组 成 部 分 ; 而 SAS 罗 辑 库 引 用 名 是 我 们 定义 逻辑 库 时 赋予 这 个 逻辑 库 的 引用 名 ， 并 且 在 
以 后 可 以 通过 该 逻辑 库 引 用 名 来 访问 逻辑 库 中 的 SAS 文 件 。 永 久 这 辑 库 ( 即 其 中 的 SAS 文 件 ) 会 一 直 存 在 ， 而 通常 SAS 逻 辑 库 引 用 名 仅 在 当前 SAS 会 话 中 有 效 ， 除 非 使 用 “新 建 遇 辑 库 ”窗口 指定 逻辑 库 时 多 
选 了 “启动 时 启用 ”选项 。 永 久 逻 辑 库 和 “新 建 远 辑 库 ”窗口 ， 在 后 面 都 有 介绍 。 


(2) 逻辑 库 引 擎 


SAs 逮 辑 库 引 擎 是 SA 软件 和 SAs 逮 辑 库 之 间 的 接口 软件 组 件 ， 每 个 As 逻辑 库 都 关联 一 种 逻辑 库 引 擎 。 逻 辑 库 引 警 识 别 逻 辑 库 中 的 文件 并 以 SAs 可 理解 的 格式 将 文件 内 容 呈 现 给 SAs。SAs 提 供 多 种 引 
擎 以 管理 多 个 格式 的 数据 。 通 过 这 些 引擎 SAs 可 以 进行 如 下 操作 : 存储 和 访问 磁盘 文件 ， 将 数据 从 物理 位 置 放 入 内 存 中 ， 读 取 其 他 软件 产生 的 数据 库 文件 ， 以 及 在 不 同 操作 系统 之 间 迁 移 SAs 文 件 等 。 


逻辑 库 引 擎 可 分 为 原生 逻辑 库 引 警 和 接口 逻辑 库 引 警 。 原 生 逻 辑 库 引 擎 也 就 是 默认 的 Base 引 警 ， 访 问 由 SAS 创 建 和 处 理 的 SAs 文 件 。 在 创建 新 逻辑 库 时 如 果 不 指定 引擎 ，SAs 会 自动 选择 Base SAS 引 
擎 。 该 引擎 根据 自身 版 本 的 不 同 ， 可 处 理 SASs 7、SAS 8 和 SAS 9 文件 ， 这 些 文件 对 应 的 版 本 引擎 名 称 分 别 为 V7、V8 和 V9。 大 多 数 情 况 下 ，SAs 9 可 以 直接 处 理 SAS 8、SAS 7 和 SAS 6 创建 的 SAS 文 件 , 不 需 
要 对 其 进行 转换 。 关 于 版 本 兼容 性 可 能 存在 的 问题 及 对 应 解决 方法 ， 可 参考 SAs 帮 助 文档 学 习 。 


接口 逻辑 库 引擎 用 来 访问 由 其 他 软件 系统 (例如 关系 型 数据 库 系 统 、ERP 系 统 等 ) 管理 的 数据 。 接 口 逻辑 库 对 用 户 不 透明 ， 需 要 显 式 指定 引擎 名 称 ， 并 且 需 要 相应 的 SAS/ACCESS 软 件 许 可 ， 而 且 通 常 
还 需要 安装 相应 的 数据 库 管 理 系 统 的 客户 端 软 件 。 例 如 要 访问 Teradata 数 据 库 管理 系统 中 的 数据 文件 ， 要 有 SAS/ACCESS to Teradata Interface 的 许可 ， 并 且 在 定义 逻辑 库 时 ，LIBNAME 语 句 中 要 指定 对 
应 的 逻辑 库 引 警 为 Teradata 数 据 库 对 应 的 引擎 ， 同 时 还 要 安装 了 Teradata 提 供 的 客户 端 软件 。 


下 面 给 出 了 定义 原生 逻辑 库 和 接口 逻辑 库 示例 。 
. Base 引 擎 相关 代码 如 下 (语句 中 base 选 项 可 省 略 ) : 


lipbname saslib base 'c:\sas\data'; 


. SAS/ACCESS to Teradata 引 擎 相关 代码 如 下 : 





libname tdlib teradata server=tera2650 user=userl password=passwordl database=hps; 


(3) 逻辑 库 物 理 位 置 


SAS 逻 辑 库 物 理 位 置 是 一 个 或 多 个 操作 系统 能 够 识别 的 物理 位 置 ， 或 者 是 一 个 或 多 个 已 经 定义 了 的 其 他 SASs 逻 辑 库 。 在 上 面 给 出 的 Base 引 警示 例 中 ， 逻 辑 库 saslib 的 物理 路 径 为 c: \sas\data。 对 于 连接 
到 数据 库 管理 系统 的 SAS 逻 辑 库 ， 通 常 是 通过 一 系列 数据 库 连 接 选 项 指定 要 访问 的 数据 库 管 理 系统 的 信息 。 如 在 SAS/ACCESs to Teradata 引 警示 例 中 ， 通 过 数据 库 连 接 选 项 分 别 指定 了 Teradata 数 据 库 服 
务 器 的 名 称 、 使 用 的 用 户 名 、 密 码 及 数据 库 名 称 。 


SAS 逻 辑 库 还 可 以 有 多 个 物理 位 置 。 下 面 的 代码 示例 给 出 了 定义 多 个 物理 位 置 的 SASs 逻 辑 库 Y2014。 这 3 段 代 码 都 能 实现 将 逻辑 库 引 用 名 Y2014 与 4 个 物理 位 置 c: \sas\data\quater1、c: 
\sas\data\quater2、c: \sas\data\quater3 和 c: \sas\data\quater4 相 关联 。 


“ 代码 1: 


libname Y2014 ('c:\sas\data\quaterl' 'c:\sas\data\quater2'" 
'c:\sas\data\gquater3' 'c:\sas\data\quater4'); 


. 代码 2: 





libname Q1 2004 'c:\sas\data\quaterl'; 
libname Q2 2004 'c:\sas\data\quater2'; 
libname Q3 2004 'c:\sas\data\quater3'; 
libname Q4 2004 'c:\sas\data\quater4'; 
libname Y2014 (Q1 2014 Q2 2014 Q3 2014 Q4 2014); 























.代码 3: 





libname Q2 2004 'c:\sas\data\quater2'; 
libname Q3 2004 'c:\sas\data\quater3'; 
libname Q4 2004 'c:\sas\data\quater4'; 
lipname Y2014 ('c:\sas\data\quaterl' Q2 2014 Q3 2014 0Q4 2014); 























当 一 个 物理 位 置 下 的 空间 不 够 时 ， 定 义 多 个 物理 位 置 的 SAs 逻 辑 库 非 常 有 用 。 这 样 ， 在 写 程序 时 只 需要 使 用 一 个 SAs 逻 辑 库 引 用 名 ， 当 前 面 的 物理 路 径 空间 用 尽 时 ，SA3s 会 自动 将 写 入 的 SAs 文 件 人 存储 到 
其 他 物理 路 径 。 


2. 永 久 和 临时 SAS 钦 辑 库 


SAs 逻 辑 库 通 常 为 永久 数据 库 。 永 久 SAs 逻 辑 库存 储 在 计算 机 的 固定 存储 介质 上 ， 当 SAs 会 话 终止 时 不 会 被 删除 ， 其 中 的 SAs 文 件 可 以 在 后 续 的 SAs 会 话 中 继续 使 用 。 当 使 用 永久 SAs 逻 辑 库 中 的 文件 
时 ， 通 常 需要 指定 逻辑 库 引 用 名 作为 两 层 SAS 文 件 名 的 第 一 部 分 ， 并 且 要 告诉 SAS 该 文件 的 存储 位 置 ， 例 如 saslib.Inventory， 表 明 读 取 或 写 入 SAS 逻 辑 库 saslib 中 的 Inventory 文 件 、 数 据 集 或 目录 
(Catalog) 等 ， 至 于 Inventory 具 体 指 的 是 哪 种 SAS 文 件 ， 与 所 使 用 的 上 下 文 环境 有 关 。 


同时 SAs 还 提供 了 一 种 在 SAs 会 话 或 作业 运行 过 程 中 存储 临时 数据 和 文件 的 临时 逻辑 库 ， 其 引用 名 为 WORK。 逻 辑 库 WORK 不 需要 显 式 指定 ， 且 仪 在 当前 SAs 会 话 或 作业 执行 过 程 中 人 存在。 逻辑 库 WORK 
中 的 文件 在 该 SAS 会 话 期 间 可 用 于 任何 DATA 步 或 SAS 过 程 ， 但 如 果 SAS 会 话 正 常 结束 ，WORK 库 中 的 文件 在 SAS 会 话 结束 时 会 被 自动 删除 。 一 般 情况 下 ， 可 以 通过 指定 一 级 名 称 来 读 写 这 个 逻辑 库 中 的 SAS 
文件 ， 同 样 也 可 以 使 用 二 级 名 称 。 例 如 ， 要 引用 I 临 时 逻辑 库 中 的 SAs 文 件 Inventory， 直 接 使 用 Inventory 和 使 用 work.Inventory 的 效果 一 样 。 


在 开发 SAS 程 序 时 ， 如 果 一 次 分 析 包 含 多 个 PROC 步 ， 通 常会 将 前 一 个 PROC 步 产生 的 中 间 数 据 或 文件 放 入 临时 逻辑 库 中 ， 供 后 面 的 分 析 过 程 使 用 。 在 分 析 完 成 时 ， 这 些 中 间 数 据 或 文件 会 自动 清除 。 当 
然 ， 良 好 的 开发 风格 应 该 是 在 完成 任务 后 ， 通 过 代码 显 式 地 删除 所 产生 的 临时 数据 。 


3.SAS 系 统 逻 辑 库 


SAS 提 供 了 4 个 特殊 的 系统 逻辑 库 : WORK、user、sashelp 和 sasuser。WORK 是 临时 逻辑 库 ， 前 面 已 经 介绍 过 ， 其 他 3 个 都 是 永久 逻辑 库 。 


user 多 辑 库 可 以 使 用 LIBNAME 语 句 、LIBNAME 函 数 、 系 统 选 项 USER= 或 操作 系统 显 式 指定 。 指 定 user 逻 辑 库 后 ， 可 以 使 用 一 级 名 称 读 取 该 逻辑 库 中 的 文件 ， 就 像 引 用 临时 多 辑 库 中 的 文件 一 样 。 一 旦 
定义 了 SAS 风 辑 库 user， 在 SAS 程 序 中 使 用 一 级 名 称 读 取 或 写 入 任何 SAS 文 件 时 ，SAS 都 会 在 该 user 逻 辑 库 对 应 的 物理 位 置 查找 或 写 入 相应 的 SAS 文 件 。 这 时 ， 如 果 要 引用 WORK 钦 辑 库 中 的 文件 ， 必 须 指定 
带 有 WORK 逻 辑 库 引 用 名 的 二 级 名 称 。 当 SAs 会 话 结束 时 ， 人 存储 在 逻辑 库 user 里 的 文件 不 会 被 删除 。 


sashelp 逻 辑 库 包含 一 组 用 于 控制 SAs 会 话 各 方面 信息 的 目录 (Catalog) 和 其 他 文件 。 该 逻辑 库 中 存储 的 这 些 目 录 和 文件 适用 于 任何 使 用 该 SAs 系 统 的 用 户 。 用 户 的 个 性 化 设置 会 存储 在 sasuser 逻 辑 库 
中 。 如 果 除 了 安装 Base SAS 软 件 外 ， 还 装 了 SAs 的 其 他 产品 ， 那 么 这 些 产 品 需要 用 到 的 一 些 目录 也 会 包含 在 sashelp 逻 辑 库 中 。 


sasuser 逻 辑 库 包含 能 够 定制 SAS 特 征 以 满足 特定 要 求 的 SAs 目 录 。 如 果 默 认 的 sashelp 逻 辑 库 对 一 些 应 用 程序 不 适用 ， 那 么 可 以 修改 它们 并 将 这 些 个 性 化 的 设置 保存 在 sasuser 逻 辑 库 中 。 例 如 ， 在 SAS 
里 ， 可 以 在 名 称 为 sasuser.profile 的 个 人 Profile 目 录 中 存储 个 人 默认 的 功能 键 设置 或 窗口 属性 。 


2.1.2 SAS 数 据 集 


SAS 数 据 集 是 存储 在 SAs 逻 辑 库 中 、 由 SAS 创 建 和 处 理 的 SASs 文 件 ， 是 SAs 存 储 数据 的 主要 方式 。SAS 数 据 集 包 含 以 表 的 观测 ( 行 ) 和 变量 ( 列 ) 为 形式 存在 的 数据 值 ， 以 及 用 以 描述 变量 类 型 、 长 度 和 
创建 该 数据 集 时 所 使 用 的 引擎 等 信息 的 描述 信息 。 根 据 其 是 否 包 含 真正 的 数据 值 ，SAS 数 据 集 可 分 为 SAAS 数 据 文件 和 SAS 视 图 。SAS 数 据 文件 包含 数据 和 描述 信息 ， 在 逻辑 库 中 的 成 员 类 型 是 DATA; 而 SAS 
视图 不 包含 数据 值 ， 是 指向 其 他 数据 源 的 虚数 据 集 ， 成 员 类 型 是 VIEW。 下 面 分 别 介 绍 SAS 数 据 集 的 文件 内 容 、 命 名 ， 各 种 SAS 数 据 文件 和 和 SAS 视图， 以 及 它们 的 创建 方式 ，。 


1. 数 据 集 文 件 


如 图 2.2 所 示 给 出 了 SAS 数 据 集 的 逻辑 组 件 ， 这 些 组 件 可 能 分 布 在 操作 系统 下 的 不 同文 件 中 。 


挡 述 信息 


数据 值 





观测 〈 行 ) 


打 展 属性 


图 2.2 SAS 数据 集 逻 辑 组 件 


下 面 来 具体 看 看 图 2.2 中 的 各 个 组 件 。 


* 描述 信息 : 描述 了 SAS 数 据 集 自身 及 其 变量 的 属性 ， 包 括 观测 数 、 观 测 长 度 、 该 数据 集 上 次 的 修改 日 期 等 其 他 信息 。 其 变量 的 描述 信息 包括 名 称 、 类 型 、 长 度 、 输 入 输出 格式 、 标 签 ， 以 及 是 否 已 经 


为 该 变量 建立 索引 等 属性 。 
" 数据 值 : 以 给 形 表 的 形式 排列 。 一 个 数据 集 可 包含 若干 个 观测 (也 称 为 行 ) ， 每 个 观测 通常 由 一 个 或 多 个 变量 (也 称 为 列 ) 值 组 成 。 


` 索引 : 是 单独 的 SAS 文 件 ， 可 以 为 SAS 数 据 文 件 创建 索引 ， 以 提供 对 指定 观测 的 直接 访问 。 索 引文 件 与 其 数据 文件 有 着 相同 的 名 称 ， 但 成 员 类 型 为 INDEX。 索 引 可 提供 对 指定 观测 更 快 的 访问 ， 尤 其 是 
对 较 大 的 数据 集 而 言 。 


` 扩展 属性 : 是 定义 在 数据 集 或 变量 之 上 的 元 数据 。 扩 展 属 性 使 用 DATASETS 过 程 创 建 ， 表 示 为 < 名 称 - 值 > 对 。 
下 面 以 一 个 简单 的 SAS 数 据 集 为 例 ， 来 理解 数据 集 的 描述 信息 、 观 测 和 变量 。 


在 SAS 窗 口 提交 如 下 代码 生成 数据 集 : 


libname saslib 'c:\sas\data'; 

data saslib.Inventory; 
input Product ID $ Instock Price; 
datalines; 

POO1R 12 125.00 

P003T 34 40.00 

P301M 23 500.00 

PCO2M 12 100.00 






































r 
run; 


使 用 CONTENTS 过 程 打 Eh 数据 集 的 属性 信息 ， 代 码 如 下 : 


proc contents data=saslib.inventory; 





CONTENTS 过 程 生成 的 结果 如 图 2.3 所 示 。 其 中 包含 了 上 面 提 到 的 数据 集 信息 、 主 机 相关 信息 和 变量 信息 等 。 


CONTENTS PROCEDURE 


引 合 /主机 相关 的 信息 

数据 集 名 SASLIB.INVENTORY 观测 4 数据 集 页 面 大 小 65536 

成 员 类 型 DATA 变量 3 数据 集 页 数 1 

引擎 V9 索引 0 首 数据 更 1 

创建 时 间 2013-11-13 02:15:55 观测 长 度 | 24 每 页 最 大 观测 数 2715 

上 次 修改 时 间 | 2013-11-13 02:15:55 副 除 的 观测 0 首 数 据 页 的 观测 数 4 

保护 已 压缩 NO 数据 焦 修 复数 0 按 字 母 排 序 的 变量 和 属性 列表 
数据 集 类 型 已 排序 NO ExtendObsCounter YES 考 | 变量 类 型 长 度 
标签 文件 名 c'sas\data\inventory.sas7bdat 2 | Instock 获 值 5 
数据 表示 法 WINDOWS_64 创建 版 本 9.0401M0 3 | Price 数值 8 
编码 euc-cn Simplified Chinese (EUC) 创建 主机 X64 S08R2 1 | Product_ID | 字符 8 


图 2.3 ”数据 集 描述 信息 输出 


提交 PRINT 过 程 代 码 ， 打 印 数据 集 信息 。 


proc print data=saslib.inventory noobs; 
run; 


上 面 代码 打印 的 数据 集 如 图 2.4 所 示 。 





Product_ID Instock 
PQQOTR 12 125 
PQOO3T 3 
P3UT1M 23 3UU 


POUZM lz 100 

















图 2.4 ”数据 集 数据 值 


该 数据 集 包含 4 个 观测 ， 每 个 观测 表示 一 种 产品 的 各 类 信息 。 这 里 有 3 个 变量 : Product_ID、Instock 和 Price， 分 别 表示 产品 编号 、 库 存 数 和 价格 。 其 中 P001R、12、125 等 均 为 数据 值 。 


2. 数 据 集 命 


每 个 SAS 数 据 集 的 完整 名 称 如 下 : libref.SAS-data-set.membertype。 共 3 个 组 成 部 分 ， 从 左 到 右 依次 为 逻辑 库 引 用 名 、 数 据 集 名 称 和 成 员 类 型 。 在 引用 数据 集 时 ， 通 常会 指定 前 两 个 ，SAS 会 根据 上 下 
文 环境 ， 例 如 该 数据 集 出 现 的 位 置 或 数据 集 的 自 描述 信息 ， 来 确定 第 三 个 。 风 辑 库 引 用 名 是 与 SAS 数 据 集 所 在 物理 位 置 相关 联 的 SAS 逻 辑 库 名 。 当 创建 新 数据 集 时 ， 风 辑 库 引 用 名 表明 要 将 该 数据 集 保存 在 哪 
里 (位 置 ) 。 当 引用 SAS 数 据 集 上 时， 逻辑 库 引 用 名 会 告诉 SAS 在 哪个 逻辑 库 中 找到 该 数据 集 。 


数据 集 名 称 遵守 的 SAS 命 名 规则 如 下 : 
` 最 大 长 度 为 32 字 符 。 


` 必须 以 字母 (从 A~Z， 大 小 写 均 可 ) 或 下 划 线 (_) 开始 。 


“ 可 以 是 数字 、 字 母 和 下 划 线 (_) 的 任意 组 合 。 


成 员 类 型 由 SAs 指 定 ， 例 如 SAs 数 据 文 件 的 成 员 类 型 是 DATA，SAs 视 图 的 成 员 类 型 是 VIEW。 这 些 对 开发 SAs 程 序 是 透明 的 。 


在 程序 语句 中 创建 和 使 用 SAS 数 据 集 上 时， 根据 数据 集 所 在 的 逻辑 库 或 要 存储 的 逻辑 库 来 确定 使 用 一 级 或 二 级 名 称 。 一 级 名 称 只 包含 数据 集 名 称 ， 用 于 读 写 临时 逻辑 库 WORK 中 的 数据 集 ， 或 当 多 辑 库 


User 被 指定 时 读 写 逻辑 库 user 中 的 数据 集 。 二 级 名 称 由 逻辑 库 引 用 名 和 数据 集 名 称 组 成 ， 形 式 为 libref.SAS-data-set， 访 问 除 逻 辑 库 user 之 外 的 其 他 永久 逻辑 库 中 的 数据 集 时 ， 均 需要 使 用 二 级 名 称 。 


GG 注意 “前面 介绍 过 SAS 数 据 文 件 和 视图 都 是 SAS 数 据 集 。SAS 不 允许 在 相同 的 远 辑 库 中 存在 数据 集 名 称 相同 的 SAS 数 据 文件 和 视图 。 因 为 从 语法 上 来 讲 ， 同 一 程序 语句 可 以 同时 接受 SAS 数 据 文 件 和 SAS 


视图 ，SAS 不 能 从 程序 语句 判断 需要 处 理 的 是 哪 一 个 文件 。 
虽然 在 访问 WORK 或 user 逻 辑 库 中 的 数据 集 时 可 以 用 一 级 名 称 ， 即 可 省 略 逻 辑 库 引 用 名 ， 但 为 了 保持 良好 SAS 代 码 编写 风格 ， 不 建议 省 略 。 
3. 变 量 属 性 
SAs 数 据 集 变量 的 属性 包括 变量 名 、 类 型 、 长 度 、 输 出 格式 (format) 、 输 入 格式 (informat) 和 标签 (label) 。 输 出 格式 、 输 入 格式 和 标签 是 变量 的 可 选 属性 。 
每 个 变量 的 变量 名 必须 遵守 的 SAS 命 名 规范 如 下 : 
. 最 大 长 度 为 32 字 节 。 
“ 必须 以 字母 (从 A~Z， 大 小 写 均 可 ) 或 下 划 线 (_) 开始 。 


* 可 以 是 数字 、 字 母 和 下 划 线 (_) 的 任意 组 合 。 


有 


变量 的 类 型 是 字符 型 或 数字 型 。 字 符 型 变量 可 包含 任何 值 ， 而 数字 型 变 
> 


是 空格 ， 而 数字 型 的 变量 缺失 值 是 点 (.) 。 


只 能 包含 数字 值 (数字 0~9、=、-、 点 (.) 和 科学 计数 法 的 E) 。 变 量 类 型 确定 了 变量 的 缺失 值 如 何 显示 。 字 符 型 变量 缺失 值 


SAs 以 数字 值 存储 日 期 和 和 时间。 默认 情况 下 ，SAs 的 日 期 值 指 从 1960 年 1 月 1 日 开始 的 天 数 ，SAs 使 用 从 凌晨 开始 的 秒 数 存 储 时 间 值 ，SAs 的 日 期 时 间 值 (datetime) 指 从 1960 年 1 月 1 日 开始 的 秒 数 。 该 


开始 日 期 也 可 以 通过 系统 变量 YEARCUTOFF 指 定 为 其 他 值 。 


下 面 提交 如 下 代码 来 生成 数据 集 sales， 并 使 用 CONTETNS 过 程 和 PRINT 过 程 分 别 打印 该 数据 集 的 描述 信息 和 数据 值 。 





1ibname saslib 'c:\sas\data'; 
data saslib.sales; 

infile datalines dsd missover; 
input Emp ID $ Dept $ Sales Date; 
format Sales COMMA10. Date yymmdd10.; 
informat Date dated9.; 
label Emp ID=" 员 工 ID" Dept=" 部 门 "Sales=" 销 售 数据 "; 
label Date=" 销 售 时 间 "; 

datalines; 
ETOO1, TSG, $10000, O01JAN2012 
EDO02, , $12000, 01FEB2012 
ETOO04, TSG, $5000, 02MAR2012 
ECO002,CSG, $23000, 01APR2012 
ED004,QSG, ,01AUG2012 






















































































run; 

proc contents data=saslib.sales; 

run; 

proc print data=saslib.sales noobs label; 
run; 





如 图 2.5 所 示 为 CONTENTS 过 程 打印 的 部 分 结果 ， 表 示 该 数据 集 的 变量 属性 ， 其 中 ，Date 和 Sales 为 数值 型 变量 ，Dept 和 Emp_ID 为 字符 型 变量 。 如 图 2.6 所 示 为 PRINT 过 程 的 打印 结果 ， 可 以 看 
出 ，Dept (部 门 ) 的 缺失 值 为 空格 ，Sales (销售 数据 ) 的 缺失 值 为 点 (.) 。 


控 字 母 排 序 的 变量 和 属性 列表 
天 变 晶 类 型 长度 | 输出 格式 输入 格式 | 标签 
4 | Date 阔 值 8 YYMMDD10. DATES. 销售 时 间 
2 | Dept 字符 8 Bb| J 
1 | Emp_ID | 字符 8 员工 ID 
3 Sales 数值 8 | COMMA10. ”DOLLAR10. | 销售 数据 


图 2.5 变量 属性 





品 工 1D 
E1001 | Te 
EDOO2 

ET0O04 |TSG 


:012-01-01 
e012-02-01 
2012-03-02 
COUODOZ | Le 23,000 | 2012-04-01 
EDOO04 (QSG | 2012-08-01 





图 2.6 ”打印 数据 集 
变量 的 长 度 与 类 型 有 关 。 字 符 变 量 的 长 度 可 以 在 定义 时 给 出 ， 否 则 其 长 度 为 第 一 次 赋值 时 值 的 长 度 ， 最 大 长 度 可 到 32K。 数 字 型 变量 的 默认 长 度 是 8 个 字 节 ， 也 可 以 指定 不 同 的 长 度 。 
除了 名 称 、 类 型 和 长 度 外 ， 还 可 以 定义 变量 的 输出 格式 、 输 入 格式 和 标签 ， 这 些 都 是 可 选 属性 。 


格式 (format) 会 影响 数据 值 输出 的 方式 。SASs 提 供 了 各 种 字符 、 数 字 和 日 期 时 间 格 式 。 例 如 ， 为 了 将 23000 显 示 为 23000， 必 须 使 用 COMMAw.d 形 式 的 输出 格式 。 其 中 w 表 示 最 大 宽度 ，d 为 小 数位 
数 。 比 如 ， 在 图 2.5 中 ，Date 变 量 的 输出 格式 为 “YYMMDD10.”， 打 印 时 该 变量 的 形式 则 为 YYYY-MM-DD (例如 2012-01-01) 。Sales 的 输出 格式 为 “COMMA10.”， 对 应 的 数据 输出 形式 则 为 
10000。 还 可 以 创建 并 存储 自 定义 的 格式 ， 具 体 在 第 5 章 介 绍 。 


输入 格式 (informat) 指定 数据 值 以 特定 的 格式 读 入 ， 从 而 成 为 标准 的 SAs 值 。 在 读 取 包含 字母 或 其 他 特殊 字符 的 数字 值 时 必须 使 用 输入 格式 。 例 如 ， 需 要 把 输入 值 “$23000” 读 取 为 数字 型 的 变量 ， 
则 必须 使 用 输入 格式 DOLLARw.d 才 能 正确 读 入 。 自 定义 的 格式 也 可 以 用 作为 输入 格式 。 


SAS 提 供 了 丰富 的 输入 输出 格式 用 于 从 外 部 文件 读 取 各 种 日 期 格式 和 显示 各 种 日 期 格式 ， 以 满足 对 各 种 日 期 格式 的 需要 。 在 上 面 的 示例 中 使 用 输入 格式 “DATE9.” 读 入 了 “01JAN2012” 形 式 的 日 期 ， 
输出 时 使 用 的 是 输出 格式 “YYMMDD10.”， 从 而 将 存储 的 数字 显示 为 “2012-01-01” 。 


变量 都 可 以 有 标签 (label) 。 标 签 通常 是 描述 该 变量 的 文本 ， 最 大 长 度 为 256 个 字符 。 默 认 情 况 下 ， 报 表 以 变量 名 来 标识 变量 ， 但 是 可 以 将 一 个 标签 分 配给 相应 的 变量 来 显示 该 变量 的 描述 信息 。 上 例 
中 Emp_ID 的 标签 为 “员工 编号 ”，Dept 的 标签 为 “部 门 ”，Date 的 标签 为 “销售 时 间 ”，sales 的 标签 为 “销售 数据 ”。 在 代码 中 可 以 看 到 PRINT 过 程 使 用 了 LABEL 选 项 ， 这 样 一 来 ， 打 印 的 数据 集 表 头 将 
会 使 用 各 变量 的 标签 而 不 是 变量 名 称 。 


4.SAS 数 据 文件 


与 SAS 视 图 相 比 较 ，SAS 数 据 文件 是 一 种 在 其 文件 中 包含 数据 的 数据 集 。SAS 数 据 文件 可 以 由 DATA 步 创建 ， 其 名 称 在 DATA 语 句 中 指定 ， 还 可 以 由 PROC 步 创建 ， 其 名 称 通 常 是 在 该 PROC 步 语句 或 
PROC 步 的 OUTPUT 语 句 中 指定 的 。 有 时 ， 如 果 程 序 没有 给 输出 数据 集 指定 名 称 ，SAS 会 使 用 默认 名 称 。 


有 两 种 类 型 的 数据 文件 : 原生 SAS 数 据 文件 和 接口 SAS 数 据 文件 。 原 生 数 据 文 件 是 SAS 格 式 的 文件 ， 用 来 存储 SAS 格 式 的 数据 值 和 描述 信息 。 接 口 数据 文件 是 指数 据 以 其 他 格式 存在 ， 并 且 SAS 可 以 通过 
SAS/ACCEss 接 口 引 警 访问 的 数据 文件 ， 例 如 人 存在 于 Oracle、DB2、Ssybase、ERP 系 统 中 的 数据 文件 。SAs 通 过 SASs/ACCESss 接 口 引 警 来 访问 这 些 文件 中 的 数据 ， 并 将 这 些 文件 当 作 SAs 数 据 集 处 理 。 


SA9 程 序 语句 创建 的 是 原生 SAs 数 据 文件 还 是 接口 SAs 数 据 文 件 ， 取 决 于 该 数据 文件 所 属 的 逻辑 数据 库 。 如 果 该 逻辑 库 是 通过 Base 引 警 定义 的 ， 则 所 生成 的 数据 文件 是 原生 数据 文件 ， 如 果 是 通过 
SAS/ACCEss 接 口 逻 辑 库 定 义 的 ， 则 所 创建 的 是 接口 SAs 数 据 文 件 。 


使 用 DATA 步 创建 SAS 数 据 文 件 的 语法 如 下 : 





DATA 数据 集 名 称 ; 
..，SAS 语 句 ...; 
RUN; 





其 中 ，SAS 语 句 用 于 指定 数据 源 。 不 同 的 数据 源 ，SAS 语 句 也 不 尽 相同 。 例 如 DATELINES 语 句 表示 从 程序 语句 中 读 取 数 据 ，SET 语 句 读 取 指定 的 输入 数据 集 ，INFILE 语 句 读 取 指定 的 外 部 数据 文件 等 。 


上 例 中 的 DATA 步 给 出 了 使 用 DATALINES 语 句 读 取 列举 输入 数据 的 一 个 示例 。 该 代码 首先 定义 了 一 个 物理 路 径 为 c: \sas\data 文 件 夹 的 SAS 逻 辑 库 saslib， 接 着 以 DATA 关 键 字 开始 的 DATA 步 创建 了 存 
储 在 逻辑 库 saslib 中 的 数据 集 Inventory。 


有 些 PROC 步 会 在 PROC 语 句 或 PROC 步 的 OUTPUT 语 句 中 指定 要 输出 的 数据 集 。 下 面 的 代码 使 用 UMMARY 过 程 对 数据 集 trucks 进 行 汇总 ， 该 过 程 的 OUTPUT 指 定 将 输出 写 入 数据 集 saslib.sumout 
中 。 


1ibname saslib 'c:\sas\data'; 
proc summary data=saslib.trucks; 
var deaths; 
output out=saslib.sumout n=n; 
run; 





(1) SAS 数 据 文件 观测 数 


观测 数 是 SAS 数 据 文件 的 一 个 重要 属性 。SAS 数 据 文件 的 观测 数 是 文件 中 当前 观测 ( 行 )》 和 已 删除 观测 的 总 和 。 可 以 通过 执行 CONTENTS 过 程 或 DATASET 过 程 的 CONTENTS 语 句 列 出 数据 集 的 观测 
数 ， 所 列 出 的 观测 数 是 观测 和 已 删除 观测 的 总 和 和 。 参 考 图 2.3， 该 数据 集 观测 数 在 CONTENTS 过 程 打 印 的 第 一 个 表格 的 第 一 列 (“观测 ”项 ) 中 给 出 。 


了 解 观测 数 有 助 于 管理 文件 大 小 并 评估 磁盘 空间 要 求 。SAS 数 据 文 件 可 计算 的 最 大 观测 数 由 操作 系统 的 长 整 型 大 小 决定 。 


SAS 使 用 所 在 操作 系统 内 部 的 长 整 型 数 来 记录 数据 集 的 观测 数 。 在 32 位 操作 系统 中 ， 长 整 型 为 32 位 ， 数 据 文件 的 最 大 观测 数 是 231-1。 在 64 位 操作 系统 中 ， 当 长 整 型 长 度 为 64 位 时 ， 最 大 观测 数 是 263- 
1。 在 64 位 的 操作 系统 中 ， 长 整 型 长 度 为 64 位 时 ，SAS 数 据 文件 不 可 能 达到 最 大 观测 数 ， 但 是 在 32 位 操作 系统 中 ， 达 到 最 大 值 时 有 发 生 ， 一 定 要 注意 这 点 。 同 样 需要 注意 的 是 ， 即 使 在 微软 的 Windows 64 位 
版 本 的 操作 系统 中 ， 其 长 整 型 数据 类 型 实际 使 用 的 是 32 位 模型 ， 以 便 维持 与 32 位 应 用 的 兼容 性 。 从 SAS 9.3 开 始 ， 也 可 以 通过 设置 选项 EXTENDOBSCOUNTER=YES 来 扩展 新 输出 SAS 数 据 文件 中 的 最 大 观 
测 数 。 这 样 ， 即 使 在 使 用 32 位 长 整 型 存储 观测 数 的 操作 系统 中 ， 所 创建 的 SAS 数 据 文件 的 最 大 观测 数 也 能 达到 263-1。 


当 达 到 最 大 观测 数 时 ，SAs 如 何 处 理 取 决 于 该 数据 文件 是 否 有 索引 ， 或 是 否 使 用 了 索引 的 完整 性 限制 。 


: 如 果 该 SAS 数 据 文件 有 索引 或 使 用 了 索引 的 完整 性 限制 (唯一 键 、 主 键 和 外 键 ) ，SAS 会 产生 错误 消息 。 可 以 删除 索引 或 完整 性 限制 并 继续 处 理 。 但 是 因为 文件 超过 了 最 大 观测 数 ， 有 些 功能 会 受 限 制 
( 受 限制 的 功能 会 在 下 面 介绍 ) 。 而 且 ， 如 果 要 维持 索引 或 完整 性 限制 ， 必 须 重 建 该 SAS 数 据 文 件 。 从 SAS 9.4 开 始 ， 当 创建 SAS 数 据 文 件 时 ， 默 认 会 创建 扩展 的 观测 数 。 有 兴趣 的 读者 可 查看 SAS 帮 助 文档 获 


取 更 多 信息 。 
:如果 没有 使 用 索引 ，SAS 会 继续 后 续 处 理 并 且 接 受 额 外 的 观测 ， 不 会 有 消息 表明 该 SAS 数 据 文件 已 经 达到 或 超过 最 大 观测 数 。 


当 文 件 超过 最 大 观测 数 时 ， 任 何 需要 观测 数 的 操作 都 不 可 用 。 例 如 ， 返 回 观 测 数 的 SAs 过 程 (例如 PRINT 过 程 或 CONTENT 过 程 ) 会 返回 缺失 值 (.) ; 依赖 于 观测 数 的 SAS 过 程 (例如 SORT 过 程 或 
COMPARE 过 程 ) 会 返回 不 可 预知 的 结果 ; 当 请 求 压缩 文件 时 ， 压 缩 比例 不 可 计算 ; 不 能 创建 索引 或 完整 性 限制 等 。 为 了 重 获 这 些 功能 ， 可 以 重新 创建 带 扩展 观测 数 的 SAs 数 据 文件 。 


(2) 审计 追踪 SAS 文 件 


可 以 通过 DATASETS 过 程 对 SAS 数 据 文件 创建 审计 追踪 SAS 文 件 ， 用 来 记录 SAS 数 据 文件 的 修改 历史 。 每 当 观 测 被 删除 或 更 新 时 ， 谁 在 什么 时 候 修改 了 什么 的 信息 都 会 被 写 入 审计 文件 。 许 多 业务 和 组 织 
为 了 安全 都 会 要 求 审计 追踪 。 审 计 追 踪 维 护 了 历史 信息 ， 历 史 信息 可 用 于 追踪 单 块 数据 从 录入 数据 文件 开始 到 离开 的 所 有 信息 、。 


在 使 用 APPEND 过 程 对 数据 文件 进行 附加 操作 时 ， 如 果 因为 完整 性 限制 拒绝 导致 附加 操作 和 失败， 审计 追踪 将 是 SAS 中 存储 这 些 失 败 观 测 的 唯一 技术 。 可 以 使 用 DATA 步 从 审计 跟踪 文件 中 抽取 失败 或 拒绝 
的 观测 ， 然 后 根据 失败 原因 描述 信息 来 纠正 它们 ， 最 后 将 它们 重新 应 用 于 该 数据 文件 。 


5.SAS 视 图 


SAS 视 图 本 身 并 不 存储 数据 值 ， 它 仅 包 含 描述 信息 和 从 其 他 SAS 数 据 集 或 从 存储 为 其 他 软件 厂商 文件 格式 的 文件 中 获取 数据 所 需要 的 信息 。SAS 视 图 的 成 员 类 型 是 VIEW。 


可 使 用 SQL 过 程 、ACCESS 过 程 或 者 DATA 语 句 的 VIEW 选 项 来 创建 SAS 视 图 。 根 据 创建 的 方式 ， 视 图 又 分 为 SQL 视 图 、 接 口 SAS 视 图 和 DATA 步 视图 。 其 中 SQL 视 图 和 DATA 步 视图 都 称 为 原生 视 
图 ，SAS/ACCESS 视 图 称 为 接口 视图 。 关 于 SQL 视 图 的 内 容 在 本 书 第 6 章 介绍 。 


创建 DATA 步 视图 的 语法 如 下 : 


DATA 数据 集 名 称 / view= 数 据 集 名 称 ; 
..，SAS 语 句 ...; 
RUN; 


与 使 用 DATA 步 创建 SAS 数 据 文件 一 样 ，SAS 语 句 根 据 数据 来 源 的 不 同 会 有 所 不 同 。 在 DATA 步 视图 中 可 用 的 数据 源 可 以 是 原始 数据 文件 ”SAS 数 据 文件 、PROC SQL 视 图 、SAS/ACCESS 视 图 或 其 他 数 
据 库 管理 系统 中 的 数据 文件 。 下 面 给 出 了 一 段 创建 DATA 视 图 的 示例 代码 ， 数 据 源 为 SAs 数 据 文件 。 


data saslib.invt vw / view=saslib.invt vw; 
set saslib.inventory; 
run; 


上 面 代码 创建 了 DATA 步 视图 saslib.invt_ vww， 其 数据 来 自 于 逻辑 库 saslib 下 的 Inventory 数 据 文件 。 


接口 视图 通过 SAS/ACCESS 创 建 ， 可 读 取 第 三 方 数据 库 管理 系统 (DBMS) 的 数据 ， 例 如 DB2 或 Oracle。 其 实 ，SAS/ACCESS 为 这 些 第 三 方 产品 提供 了 LIBNAME 引 擎 接 口 ， 对 这 些 产品 ， 建 议 使 用 
LIBNAME 和 SAS/ACEss 对 应 的 引 警 来 指定 SAs 逻 辑 库 到 DBM 9 数据， 这 比 使 用 ACCESS 过 程 创 建 接口 视图 更 容易 ， 也 更 有 效 。 


使 用 SAS 视 图 有 如 下 优点 : 

.可 以 节省 磁盘 空间 ， 因 为 SAS 视 图 不 存储 实际 数据 ， 仅 仅 存储 去 哪儿 找到 数据 及 数据 如 何 格式 化 的 指令 。 

* 因为 数据 总 是 在 执行 时 才 从 SAS 视 图 中 获取 ， 这 样 能 保证 输入 的 数据 集 总 是 当前 的 。 

. SAS 视 图 可 减少 由 于 数据 设计 的 改变 对 用 户 造成 的 影响 。 例 如 ， 可 以 改变 存储 在 SAS 视 图 里 的 查询 信息 而 不 必 改 变 视图 结果 的 特征 。 

. 使 用 SAS/CONNECT 软 件 ，SAS 视 图 可 连接 不 同 主机 计算 机 上 的 SAS 数 据 集 ， 然 后 展示 公司 分 布 式 数据 的 集成 视图 。 

SAS 视 图 可 用 于 以 下 操作 : 输入 其 他 DATA 步 或 PROC 步 ， 将 数据 迁移 到 SAS 数 据 文件 或 SAAS 支 持 的 数据 库 管 理 系统 中 ， 使 用 PROC SQL 与 其 他 数据 组 合 。 
在 选择 使 用 SAS 数 据 文件 还 是 SAS 视 图 时 需要 考虑 以 下 方面 : 

. 数据 文件 会 使 用 额外 的 磁盘 空间 ， 而 SAS 视 图 会 占用 额外 的 处 理 时 间 。 


. 数据 文件 变量 可 在 使 用 前 排序 和 创建 索引 ， 而 SAS 视 图 在 执行 过 程 中 只 能 以 其 存在 的 形式 处 理 数据 。 
6. 特 殊 的 数据 集 


还 有 一 种 特殊 的 数据 集 : _NULL _。 如 果 想 执行 一 个 DATA 步 又 不 想 创建 SAS 数 据 集 ， 可 以 指定 关键 字 _NULL 作为 数据 集 名 称 。 代 码 如 下 : 


data null }; 


SAS 会 执行 该 DATA 步 里 面 的 语句 但 不 会 创建 新 数据 集 ， 不 会 有 观测 或 变量 写 入 任何 数据 集 。 如 果 一 个 DATA 步 的 输出 不 需要 存储 为 数据 集 ， 比 如 绘制 报表 ， 这 种 处 理 可 更 有 效 地 利用 计算 机 资源 。 


2.1.3 ”SAS 逻 辑 库 和 数据 集 管理 
理 ， 例 如 LIBNAME 语 句 、DATA 步 、DATASETS 过 程 、APPEND 过 程 和 CONTENTS 过 程 等 。DATA 步 提供 了 许多 功能 对 SAS 数 据 集 进行 处 理 (本 书后 


AI 一 任 乞 


SAS 逻 辑 库 和 数据 集 可 以 通过 SAS 程 序 语句 进行 管 


面 的 章节 会 具体 介绍 ) 。 


1.LIBNAME 语 句 


LIBNAME 的 LIST 选 项 可 以 将 一 个 或 多 个 SAS 逻 辑 库 属 性 打印 在 日 志 中 。 其 基本 形式 如 下 : 




















LIBNAME 逻 辑 库 引 用 名 LIST; 
LIBNAME ALL LIST; 


LIBNAME 的 CLEAR 选项 用 于 清除 一 个 或 多 个 逻辑 库 引 用 名 与 SAs 逻 辑 库 之 间 的 关联 关系 。 清 除了 关联 关系 的 逻辑 库 引 用 名 在 SAs 会 话 中 不 再 有 效 。 其 基本 形式 如 下 : 



























































LIBNAME 逻 辑 库 引 用 名 CLEAR; 
LIBNAME ALL CLEAR; 












































LIBNAME 还 有 更 多 对 SAs 逻 辑 库 的 管理 功能 ， 可 参考 SAs 帮 助 文档 进行 学 习 。 


2.CONTENTS 过 程 


CONTENTS 过 程 用 于 显示 数据 集 的 描述 信息 内 容 ， 并 打印 SASs 逻 辑 库 的 目录 。 通 常 ，CONTENTS 过 程 和 DATASETS 过 程 的 CONTENTS 语 句 相 同 。 该 过 程 的 基本 形式 为 : 


PROC CONTENTS DATA= 数 据 集 名 称 ; 
RUN; 





在 前 面 的 各 节 中 已 经 使 用 CONTENTS 过 程 显 示 了 数据 集 属性 内 容 ， 如 图 2.3 所 示 。 


3.DATASETS 过 程 
DATASETS 过 程 提供 了 强大 的 SAS 数 据 文 件 管理 功能 ， 对 数据 集 而 言 ， 除 了 可 显示 数据 集 的 描述 信息 外 ， 还 可 用 于 追加 观测 、 修 改变 量 名 、 删 除数 据 集 等 。 对 于 该 过 程 ， 可 通过 SAS 帮 助 文档 进行 学 习 。 
当 需 要 修改 一 个 数据 集 的 变量 属性 时 ， 使 用 DATASETS 过 程 可 以 在 不 读 取 数据 集 观测 的 情况 下 直接 修改 变量 属性 。 虽 然 也 可 以 通过 使 用 DATA 步 的 SET 语 句 基于 一 个 数据 集 创建 新 的 数据 集 ， 并 为 新 数据 
集 指 定 不 同 的 属性 来 实现 相同 的 功能 ,但 这 样 SAS 会 读 写 所 有 的 观测 ， 造 成 资源 浪费 ， 当 数据 集 较 大 时 会 非常 耗 时 。 


4.SAS 资 源 管理 器 
会 通过 SAS 窗 口 环境 的 “SAS 资 源 管理 器 ”来 管理 逻辑 库 以 及 逻辑 库 中 的 SAS 文 件 。 这 里 主要 介绍 SAS 提 供 的 对 SAS 多 辑 库 和 数据 集 的 一 些 实用 管理 操作 ， 具 体操 作 可 以 根据 各 个 菜单 


成 ， 这 里 不 玖 述 。 


此 外 ， 我 们 也 经 党 
项 对 应 的 向 导 提示 步骤 


(1) 逻辑 库 管理 
启动 SAS 窗 口 环 境 ， 双 击 “SAs 资 源 管理 器 ”窗口 的 “SAs 逻 辑 库 ”图 标 ， 显 示 该 SAs 会 话 可 用 的 所 有 逻辑 库 ， 包 括 临时 逻辑 库 WORK、 系 统 逻 辑 库 sashelp、sasuser 和 用 户 定 义 的 逻辑 库 。 在 “逻辑 
库 ” 目 录 下 ， 可 以 通过 菜单 “文件 ”二 “新 建 ”， 或 右键 单 击 空白 处 从 浮动 菜单 选择 “新 建 ”来 创建 新 逻辑 库 。 “新 建 逻 辑 库 ” 对 话 框 如 图 2.7 所 示 。 这 里 与 通过 程序 语句 定义 9As 逻 辑 库 一 样 ， 需 要 指定 逻 
辑 库 名 称 、 引 警 和 物理 路 径 信息 。 还 可 以 通过 勾 选 “启动 时 启用 ”来 指定 该 逻辑 库 在 Base SAS 启 动 时 即 创建 并 启用 ， 或 在 “选项 ”输入 框 里 指定 相应 选项 。 
右键 单 击 刚 才 创建 的 逻辑 库 saslib， 会 显示 该 逻辑 库 可 用 选项 的 浮动 菜单 。 用 户 定 义 的 逻辑 库 浮动 菜单 如 图 2.8 所 示 。 可 以 通过 该 浮动 菜单 实现 : 在 该 逻辑 库 中 查找 成 员 、 为 该 逻辑 库 添 加 新 的 成 员 、 删 


除 该 逻辑 库 和 显示 其 属性 。 





亿 辑 库 
BIN} [saslb 引擎 [E}: [ki ~ 
仆 辑 库 依 息 


路 径 [P}: |C:\SAS\data : 剂 览 昌 ]. 
选项 上 T) | | 














图 2.7 “新 建 逻辑 库 ” 对 话 框 

















ii 过 





饼 j 从 此 处 浏览 吧 ) 
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图 2.8 ”逻辑 库 浮动 菜单 


(2) 数据 集 管理 


通过 “SAS 资 源 管理 器 ”可 以 浏览 逻辑 库 的 内 容 ， 在 浏览 时 ， 可 以 选 定 逻辑 库 的 数据 集 ( 表 ) 进行 操作 。 可 通过 浮动 菜单 完成 如 下 操作 : 查看 数据 集 、 将 数据 集 导出 为 Excel 文件 、 复 制 、 删 除 、 重 命 
SAS 数 据 集 和 创建 副本 等 ， 如 图 2.9 所 示 。 


文件 @) 编辑 名 ) 视图 工具 上 ) 解 块 方案 必 ) 窗口 帮助 00 
可 | 外 | 口 态 夯 | 站 拘 昂 王 |X 郝 审 | 痢 四 


S EE | | rr pr 
Product_ID | Instock Price 
|POmR 12 125 
| Poo3T 34 40 
P301MN 23 500 
PLD0eM 12 100 
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Yiew ， in JHF na WED 


口 新 建 闸 ) ， 


国 复制 Cc) 
生成 融 | 本 0 . 

柄 粘贴 下) 

区 量 陈 也) 
重病 名 甸 ... 
属性 旦 ) 











图 2.9 数据 集 操作 
5.VIEWTABLE 窗 口 


在 “资源 管理 器 ”窗口 双击 SAs 数 据 集 ， 会 在 VIEWTABLE 窗 口中 打开 当前 SAs 数 据 集 。 默 认 打开 方式 为 浏览 模式 ， 该 模式 能 保护 数据 不 会 被 更 改 。 在 浏览 模式 下 ， 可 以 定制 数据 集 视图 ， 例 如 ， 排 序 、 
变 列 显示 颜色 和 字体 、 显 示 标 签 或 删除 添加 变量 。 选 中 数据 集 的 一 个 变量 ( 列 ) ， 右 键 单 击 显示 的 浮动 菜单 如 图 2.10 所 示 。 可 选择 不 同 的 菜单 项 ， 通 过 菜单 项 向 导 完 成 这 些 定 制 功能 。 


区 VILETTABLE: Saslilb Laventory 
|Product ID [TEE 一 
1 |POOIR Colors.. 
之 P003T Fonts. . . 
3 P301M Sort 
a 


| PCO2M Hide 
Hold 
Lolunn Descript1on 
Colunn httributes... 





图 2.10 ”定制 查看 数据 集 的 视图 
在 当前 活动 窗口 为 VIEWTABLE 窗 口 时 ， 可 以 通过 菜单 将 浏览 模式 修改 为 编辑 模式 ， 选 择 “编辑 ” 二 “编辑 模式 ”。 在 该 模式 下 可 以 进行 在 该 窗口 修改 数据 值 、 按 列 排 序 等 操作 ， 并 且 使 用 菜单 “文件 ” 
他“ 保存 ”或 “另存 为 ”， 来 保存 该 数据 集 或 建立 新 的 SAS 数 据 集 。 


2.1.4 ” SAS 系统 选项 


SAS 的 复杂 之 处 在 于 存在 众多 选项 (option) ， 读 者 需要 细心 掌握 。 根 据 SAS 选 项 出 现 的 位 置 、 功 能 和 作用 范围 来 区 分 ， 一 般 分 为 系统 选项 、 数 据 集 选项 和 语句 选项 ( 即 在 语句 中 出 现 的 选项 ) 。 本 书 
会 不 断 地 介绍 这 些 选项 ， 建 议 读者 针对 这 些 选项 的 类 别 和 用 法 进行 总 结 。 


SAS 系 统 选 项 是 影响 整个 会 话 过 程 中 SAS 程 序 处 理 或 交互 式 SAS 会 话 的 指令 。SAS 系 统 选 项 所 控制 的 内 容 包 括 SAS 输 出 的 外 观 、SAS 对 所 使 用 文件 的 处 理 形式 、SAS 数 据 集中 观测 的 处 理 形式 (例如 OBS 


选项 ) ，SAS 初 始 化 特性 (例如 MEMSIZE 选 项 ) ， 以 及 SAS 如 何 与 主机 操作 系统 交互 等 。 系 统 选 项 被 指定 时 即 开始 产生 影响 ， 直 到 其 被 改变 。 
数据 集 选 项 是 为 数据 集 操作 指定 的 选项 ， 应 用 于 其 所 作用 的 SAs 数 据 集 。 有 些 数据 集 选 项 有 对 应 的 系统 选项 或 LIBNAME 选 项 ， 例 如 选项 OBS=。 


在 下 面 的 代码 中 ， 前 一 个 PROC 过 程 受 数据 集 选 项 OBS 的 控制 ， 而 后 一 个 PROC 过 程 受 系统 选项 OBS 的 控制 。 


options obs=10; 

title "数据 集 选项 0BS= 生 效 打印 5 条 观测 "; 
proc print data=sashelp.shoes (obs=5); 
run; 
title "系统 选项 0BS= 生 效 打 印 10 条 观测 "; 
proc print data=sashelp.shoes; 
run; 
































上 





两 个 PRINT 过 程 分 别 打 印 shoes 数 据 集 的 前 5 条 和 10 条 观测 ， 结 果 如 图 2.11 所 示 。 


数据 集 选 项 OBS= 生 效 打 印 5 条 观测 


| 


Qbs Region Product SUbsidiary Jtores Ales Inmentory Retums | 
1 1 Africa | Boot Addis Ababa 12 | $29.761 | $191,821 $769 
2 | Afrca Men's Casual Addis Ababa 4 | $67 242 | $118.036 | $2,284 
| 3 Afnica Men's Dress | Addis Ababa 7 | $76.793 | $136.273 | $2 433 
是 | Africa Sarvial Addis Ababa 10 | $62,.819 $204 284 | $1.861 
5 | Africa | Slipper Addis Ababa 14 | $68,.641 | $279.795 | $1,771 
系统 选项 DBS= 生 效 打 印 10 条 观测 
1 | Atrica Boot : Addis Ababa 12 | $29.761 | $191.821 | $769 
2 : Africa Men's Casual Addis Ababa 4 $67242 | $118.036 | $2,284 
3 Africa Men's Dress Addis Ababa 7 | $76793 | $136.273 | 和 $2 433 
| | Africa | Sandal Addis Ababa 10 S62,819 | S$204.284 | $1,861 
EE Atrica Slipper Addis Ababa 14 | $68641 | $279,.795 | $1,771 
6 | Africa Sport Shoe Addis Ababa 4 $1,690 | $16.634 $79 
了 | Africa © Women'sCasual Addis Ababa 2 $51,541 | $98.641 $940 
8 Africa Women'sDress | Addis Ababa 12 | $108,942 | $311,017 | ,233 
加 | Africa Boot Alglers 21 | $21.297 | $73.737 $710 
10 Africa Men's Casual Algiers 4 | $63206 | $100.982 | $2,221 


语句 选项 出 现在 SAS 语 句 中 ， 用 于 控制 该 语句 的 行为 。 全 局 语句 中 的 选项 会 


则 对 该 逻辑 库 中 的 所 有 数据 集 都 不 能 进行 更 新 或 写 入 操作 。 


1. 指 定 SAS 系 统 选 项 


SAS 系 统 选项 可 通 


在 UNIX 环 境 下 ， 如 果 启 动 SASs 时 通过 命令 行将 临时 逻辑 库 WORK 的 物理 路 径 设置 为 /SASWORK， 则 SASs 的 启动 命令 行 如 下 : 


过 多 种 方式 指定 。 


#/opt/SASHome/SASFoundation/9.4/sas -work /SASWORK 


图 2.11 数据 集 选 项 和 系统 选项 


有 更 加 广泛 的 影响 ， 例 如 LIBNAME= 语 句 选 项 影响 特定 逻辑 库 的 所 有 执行 。 如 果 LIBAN ME 语句 的 ACCESS 选项 值 为 ONLY， 


常见 的 指定 SAs 系 统 选项 的 方法 有 : 通过 启动 SAAS 时 的 命令 行 和 配置 文件 指定 ， 或 者 SAS 启 动 后 通过 OPTIONS 语 句 或 SAS 系 统 选项 窗口 指定 。 





如 果 是 通过 配置 文件 指定 的 ， 则 将 该 选项 写 入 配置 文件 中 。SAS 配 置 文 件 在 第 1 章 中 已 经 介绍 过 了 。SAS 启 动 后 在 OPTIONS 语 句 中 指定 系统 选项 的 形式 如 下 : 





OPTIONS 选项 1 < 选项 2> < 选项 3> ...; 





前 面 已 经 给 出 了 通过 OPTIONS 语 句 给 出 指定 OBS= 选 项 值 的 示例 。 
关于 通过 SAs 系 统 选项 窗口 指定 和 查看 系统 选项 值 的 情况 ， 会 在 后 面 介绍 。 


2. 查 看 系统 选项 值 


如 果 数 据 集 选 项 和 语句 选项 出 现在 当前 起 作用 的 位 置 ， 可 以 很 容易 地 查看 。 但 是 ， 要 看 到 当前 起 作用 的 SAs 系 统 选项 值 和 当前 值 是 通过 何 种 方式 设置 的 就 没 那么 容易 了 ， 因 为 SAs 为 系统 选项 提供 了 默认 


值 ， 并 且 有 多 种 方式 可 以 设 定 系统 选项 值 。 对 此 ， 可 以 使 用 OPTIONS 过 程 、GETOPTIONS 国 数 或 通过 “SAS 系 统 选 项 ”窗口 指定 选项 名 称 来 查看 。 


带 VALUE 选 项 的 OPTIONS 过 程 将 指定 选项 的 值 、 范 围 及 该 值 如 何 设置 的 信息 打印 到 “日 志 ” 窗 口 的 基本 形式 如 下 : 





PROC OPTIONS OPTION= 选 项 名 称 VALUE ; 
RUN; 











在 SAS 窗 口 提交 如 下 代码 : 


options obs=20; 
proc options option=obs value; 
run; 


在 “日志” 窗口 打印 的 输出 信息 如 图 2.12 所 示 。 从 该 图 可 以 看 出 ，OPTION 过 程 打印 选项 obs 值 为 20， 显 示 该 值 是 通过 OPTIONS 语 句 设置 的 。 


Fh 
options obs=28@; 


proc options option=0bs ualue : 
PUN: 


shs (RY PROPRIETARY SOFTWARE RELEASE 9.8 Ts1HMg 


SAS -i 0BS 的 选项 值 信息 


3 DHS Process 


尝 贡 值 如 何 设置 0ptions Statement 


NOTE: “PROCEDURE i | 【总 处 理 时 | 可) : 
藉 陈 时 间 下 mn 


图 2.12 OPTIONS 过 程 打 印 的 选项 信息 





不 使 用 选项 VALUE 时 仪 返 回 该 选项 值 。 


将 GETOPTION 函 数 作 为 9%SYSFUNC 安 函数 的 参数 ， 从 而 获取 系统 选项 设置 的 基本 形式 如 下 : 








sPUT gsSYSEUNC (GETOPTION (选项 名 称 ) ) ; 











在 SAS 窗 口 提交 如 下 代码 : 


options obs=20; 
sput %Ssysfunc (getoption (obs) ) ， 








在 “日 志 ” 窗 口 打印 输出 的 信息 如 图 2.13 所 示 。 从 该 图 可 以 看 出 ， 选 项 OBs 的 值 为 20。 


三 用 和 人 
options obs =28; 


tput %sysFunc(getoption(obs})); 





图 2.13 ”GETOPTION 函 数 的 选项 信息 


在 GETOPTIONS 背 数 中 还 可 添加 其 他 参数 ， 显 示 指 定 选 项 的 其 他 信息 ， 例 如 默认 值 、 启 动 时 的 值 ， 以 及 该 值 如 何 设置 等 。 


3.SAS 系 统 选 项 窗口 
通过 “SAS 系 统 选 项 ”窗口 菜单 可 以 查看 和 管理 SAS 系 统 选 项 。 选 择 菜单 “工具 ” “选项 ”中 “系统 ”， 会 打开 “SAS 系 统 选项 ”窗口 。 该 窗口 对 SAS 系 统 选项 进行 了 分 组 ， 如 图 2.14 所 示 。 可 以 通 
选项 组 ”的 浮动 菜单 展开 该 分 组 或 在 该 分 组 中 查找 系统 选项 。 展 开 选 项 组 、 子 选项 组 直到 右 侧 窗口 出 现 具 体 的 系统 选项 ， 可 通过 具体 选项 的 浮动 菜单 修改 该 选项 值 或 将 该 选项 值 重 置 为 默认 值 。 


国 SiG 系统 选项 


A 选项 5 [i 

昌 - 便 | 通信 全 通信 运程 共享 通讯 设置 
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由 . ES 交 忻 文人 性 sAs 仙 辑 库 和 成 员 设 置 
由 -区 输入 控制 全 字 沾 元 据 条 目 和 处 理 设置 


由 区 图形 SN 区 设备 、 图 形 和 地 图 设置 
5 冬日 志和 过程 输 册 控制。 日 志和 过 程 输出 设置 


二 Fm I 排序 过 程 设 置 
出 条 统管 理 软件 安装 点 许可 和 内 存 设置 


We| 是 | 而 | 





图 2.14 “SAS 系统 选项 ”窗口 


在 左 侧 窗 口 单 击 “ 日 志和 过 程 输出 控制 ” “过 程 输出 ”， 右 侧 窗口 会 显示 “过 程 输出 组 的 选项 ” 窗 格 ， 如 图 2.15 所 示 。 右 键 单 击 要 修改 其 值 的 系统 选项 ， 通 过 浮动 菜单 修改 该 选项 值 或 将 该 选项 值 重 
置 为 默认 值 。 例 如 ， 右 键 单 击 Center， 选 择 “ 修 改 值 ”， 在 “修改 值 ”对 话 框 选 择 或 设置 新 值 ， 单 击 “ 确 定 ” 按 钮 保存 该 选项 值 。 





-过程 输 出 组 的 选项 
| 畴 条 [5 
1 在 每 个 BY 组 上 打印 BY 行 。 
1 过 程 输出 居中 或 左 对 齐 。 
1 打印 SAS 程序 的 启动 时 间 。 
COMPATIBLE 指定 二 进 制 -十 进 制 方法 。 
四 . 攻 i 图 形 0 显示 CONTENTS 和 DATASETS 信息 。 
品 芭 | 日 志和 过 程 输出 控制 2147463B47 us 输出 ”窗口 中 的 最 太行 数 。 
| 人 ss 日 志 | Dtres' 0 为 日 志和 二 出 更 新 日 期 相 时 间 。 
过 程 输出 | 点 认输 出 档 式 化 字体 。 
-| sis 日 志和 过 程 输出 分 页 字符 。 
“全 os 打印 i 和 妇 称 : 默认 打印 表单 。 
局 用 过 程 宫 量 标 营 。 
SAS 输出 的 行 大 小 。 
扶 失 的 数值 字符 。 
| i 在 标 是 和 中 打印 责 码 。 
中 区 / ; 在 新 页 中 开始 SMS 日 志和 LISTINWG。 
由 ,ii 系统 管理 as 重 置 34S 输出 内 码 。 
] mm: 拇 页 日 志和 输出 行 元 。 
初始 化 过 程 和 输出 立 件 。 
在 畏 出 页 面 顶 部 嘴 过 的 行 数 。 
默认 打印 字体 。 
Hostprint | 慷 用 Windows 打 ED 功 能 打 JED 。 
Prngetlist 1 识别 系统 打印 机 。 
Sysprint ("Microsoft XFS Document WF,.， SS 输出 的 目标 打印 机 s 


人 引用 用 


图 2.15 在 “SAS 系 统 选项 ”窗口 修改 系统 选项 值 


2.1.5 ” ”SAS 程序 结构 


粹 


儿 


SAS 程 序 用 于 访问 、 管 理 、 分 析 和 展现 数据 。 其 基础 组 成 部 分 是 DATA 步 和 PROC 步 ，PROC 步 又 称 为 SAS 过 程 。 一 个 SAS 程 序 可 包含 以 任意 顺序 组 合 的 多 个 DATA 步 和 多 个 PROC 步 。 


DATA 步 通常 用 于 创建 和 操作 数据 集 ， 还 可 用 于 产生 定制 的 报表 。 例 如 ，DATA 步 可 用 于 计算 值 、 检 查 并 修正 数据 中 的 错误 、 将 数据 存储 到 SAS 数 据 集中 以 便于 下 次 使 用 ， 以 及 通过 对 存在 的 数据 集 取 子 


、 合 并 或 更 新 ， 产 生 新 的 数据 集 。DATA 步 由 关键 字 DATA 开 始 。 


PROC 步 是 一 些 预先 写 好 的 例 程 ， 不 同 的 PROC 步 其 功能 不 同 。PROC 步 能 够 用 来 分 析 和 处 理 SAS 数 据 集中 的 数据 ， 并 以 适当 的 形式 展现 数据 和 信息 。 有 些 PROC 步 会 创建 包含 该 过 程 结果 的 新 SAS 数 据 


。PROC 步 可 列 出 、 排 序 和 汇总 数据 ， 也 可 以 产生 描述 性 的 统计 量 ， 并 对 其 进行 分 析 和 优化 ， 从 而 创建 汇总 报告 、 产 生 图 表 等 。PROC 步 由 关键 字 PROC 开 始 。 


SAS 程 序 还 包含 SAS 语 句 ， 每 条 SAS 语 句 通常 以 SAS 的 关键 字 开 始 ， 并 总 是 以 分 号 结束 。DATA 步 和 PROC 步 通常 包含 多 条 语句 。SAS 语 句 的 形式 很 自由 ， 可 以 在 一 行 的 任何 地 方 开始 和 结束 ， 每 条 语句 可 


跨越 多 行 ， 多 条 语句 也 可 以 在 同一 行 。 语 句 中 的 “ 词 ” 以 空格 或 特殊 字符 分 开 。SAs 语 句 不 区 分 大 小 写 ， 但 是 在 大 多 数 时 候 ， 在 引号 中 的 文本 是 区 分 大 小 写 的 。 


下 面 通过 示例 来 理解 DATA 步 、PROC 步 和 SAs 语 句 。 在 图 2.16 中 ，SAs 语 句 、DATA 步 和 PROC 步 都 已 经 标识 出 来 。 


libname saslib "civsasvdata'i 一 -一 SAS 语句 


data saslib,.Inventory; 一 -一 SAS 语句 
Input Product ID 3$ Instock PrIcei 一 SAS 语句 
datalines; 一 一 ”SAS 语句 
POOl1R 12 125.00 
PO03T 34 40.00 DATA 步 
P301M 23 500.00 SAS 语句 
PCO2M 12 100.00 


run; 一 一 一 SAS 语句 


proc print data=saslib.Inventory noobs; 一 一 SAS 语句 


run; 一 一 一 ”SAS 语句 PROC 步 


图 2.16 ”SAS 语 句 、DATA 步 、PROC 步 
可 以 在 SAS 程 序 的 任何 地 方 使 用 注释 语句 来 说 明 程序 的 目的 、 解 释 不 好 理解 的 程序 片段 ， 或 者 描述 复杂 程序 中 的 一 些 步骤 或 计算 原理 。 注 释 有 两 种 基本 形式 ， 第 一 种 如 下 : 
* 消 息 ; 
消息 为 注释 的 内 容 ， 可 以 是 任意 长 度 ， 但 必须 写 为 单独 的 语句 ， 以 分 号 结束 ， 且 内 部 不 能 包含 分 号 。 
第 二 种 形式 如 下 : 
/* 消 息 */ 


(在 后 面 章 节 中 介绍 ) 中 使 用 注释 时 ， 必 须 使 用 这 种 方式 。 


ll 


消息 为 注释 的 内 容 ， 也 可 以 是 任意 长 度 ， 可 以 褒 套 任何 类 型 的 注释 ,还 可 以 包含 分 号 和 不 匹配 的 引号 。 宏 语 
下 面 是 使 用 注释 的 几 个 例子 。 
例 2.1: 


xDO NOT edit below this line!; 





例 2.2: 


/* Do NOT edit below this line! */ 





例 2.3: 


/玉米 炎炎 火炎 火炎 炎炎 炎炎 炎炎 火炎 火炎 火炎 类 炎炎 火炎 火炎 火炎 火炎 大 炎炎 火炎 火炎 火炎 火炎 炎炎 类 火炎 火炎 火炎 火炎 大大 炎炎 火炎 
* PROGRAM SETUP 

* Use this section to alter macro variables, options, or 

* other aspects of the test. No Edits to this Program are 


* allowed past the Program Setup section!! 
大火 火 火 火 火 火 火 火 炎炎 炎 火炎 火炎 火炎 火炎 炎炎 类 火炎 炎炎 火炎 火炎 大大 大 炎炎 炎炎 火炎 火炎 类 大 类 大 炎炎 炎炎 火炎 火炎 大大 炎炎 类 / 





























2.2 ”通过 DATA 步 读 取 数据 


DATA 步 是 SAS 编 程 中 的 重要 组 成 部 分 。 本 节 主 要 介绍 如 何 使 用 DATA 步 的 各 种 输入 方式 来 读 取 不 同 格 式 的 外 部 文件 中 的 数据 ， 并 创建 数据 集 。 同 时 ， 还 会 介绍 DATA 步 的 处 理 过 程 ， 相 信 这 会 帮助 我 们 
更 好 地 学 习 和 掌握 如 何 使 用 DATA 步 读 取 原始 数据 。 
2.2.1 DATA 步 处 理 


DATA 步 由 一 组 SAS 语 句 组 成 。 首 先 ， 由 DATA 语 句 创建 并 命名 SAS 数 据 集 ; 然后 SAS 会 编译 并 检查 其 语句 的 语法 ， 如 果 语 法 正确 ， 这 些 语句 会 被 执行 。 在 最 简单 的 形式 下 ，DATA 步 自动 输出 和 返回 ,这 
个 过 程 会 一 直 循 环 。 下 面 是 一 个 典型 的 DATA 步 读 取 外 部 文件 的 处 理 流程 : 


1) 编译 DATA 步 中 的 SAs 语 句 并 检查 语法 。 

2) 创建 输入 缓冲 区 、 程 序数 据 向 量 PDV (Program Data Vector) 和 数据 集 描述 信息 。 
3) 从 DATA 语 句 开 始 执行 。 

4) 将 PDV 中 所 有 变量 值 ( 除 自动 变量 N_ 和 _ERROR_) 置 为 缺失 值 。 

5) 判断 是 否 有 数据 要 读 入 。 有 数据 要 读 入 ， 进 行 下 一 步 ; 如 果 没 有 ， 关 闭 数 据 集 。 

6) 将 数据 读 入 输入 缓冲 区 ， 并 赋值 给 PDV 中 的 变量 。 

7) 执行 其 他 可 执行 语句 。 

8) 将 观测 写 入 SAS 数 据 集 。 


9) 返回 DATA 步 开始 下 一 个 迭代 ， 从 第 3 步 开始 。 


1. 编 译 阶段 
当 提交 DATA 步 执行 时 ，SAs 检 查 SAs 语 句 的 语法 并 编译 它们 ， 将 语句 自动 翻译 为 机 器 代码 。SAs 进 一 步 处 理 代码 并 创建 输入 缓冲 区 、PDV 和 数据 集 描述 信息 。 
. 输入 缓冲 区 是 内 存 中 的 遇 辑 区 域 。 当 程序 执行 时 ，SAS 会 将 原始 数据 文件 中 的 每 条 数据 记录 读 入 该 区 域 。 


. PDV 也 是 内 存 中 的 逻辑 区 域 ，SAS 在 该 人 逻辑 区 域 中 构建 数据 集 ， 每 次 一 个 观测 。 当 程序 执行 时 ，SAS 从 输入 缓冲 区 读 取 数据 值 ， 或 使 用 SAS 语 和 句 创建 数据 值 。SAS 把 数据 值 赋 给 变量 ， 然 后 从 PDV 中 将 


这 些 数据 值 写 入 为 SAS 数 据 集中 的 一 个 观测 。 


“ 描述 信息 是 关于 每 个 SAS 数 据 集 的 信息 ， 前 面 介绍 过 。 


2. 执 行 阶段 


DATA 步 中 的 所 有 可 执行 语句 在 每 次 迭代 中 都 会 被 执行 一 遍 。 如 果 输 入 文件 包含 原始 数据 ， 那 么 SAS 会 先 读 入 一 个 观测 到 输入 缓冲 区 ， 然 后 读 取 输入 缓冲 区 中 的 数据 值 并 将 其 赋 给 PDV 中 的 变量 。SAS 还 
会 计算 由 程序 语句 创建 的 数据 值 ， 并 将 这 些 值 写 入 PDV。 当 程序 执行 到 DATA 步 结束 上 时， 默认 会 执行 如 下 操作 : 


1) 把 PDV 中 的 当前 观测 写 入 数据 集 。 

2) 程序 循环 回 到 DATA 步 最 开始 的 地 方 。 

3) PDV 中 的 变量 重 置 为 缺失 值 。 注 意 ， 在 RETAIN 语 句 中 指定 的 变量 和 自动 变量 N_、_ERROR 不 会 重 置 为 缺失 值 。 关 于 RETAIN 语 句 会 在 后 面 的 章节 介绍 。 

如 果 还 有 另 一 条 记录 要 读 取 ， 那 么 程序 会 再 执行 一 遍 ，SA3S 会 构建 第 二 个 观测 并 继续 ， 直 到 没有 任何 记录 。 这 时 ， 数 据 集 关 闭 ，SAs 继 续 下 一 个 DATA 或 PROC 步 。 


下 面 通过 示例 来 介绍 DATA 步 编译 和 执行 各 条 语句 时 输入 缓冲 区 和 PDV 中 的 内 容 。 该 示例 在 之 前 用 过 的 创建 产品 库存 的 DATA 步 基础 上 进行 了 简单 的 修改 ， 新 增加 了 变量 Cost。 代 码 如 下 : 


lipbname saslib "c:\sas\data"; 

data saslib.inventory; 
input Product ID $ Instock Price; 
Cost=Price*0.15; 
datalines; 

POO1R 12 125.00 

P003T 34 40.00 

P301M 23 500.00 

PCO2M 12 100.00 
































run; 
DATA 步 由 DATA 语 句 开 始 ， 该 DATA 语 句 还 创建 命名 为 IJnventory 的 数据 集 ， 并 将 其 存储 在 saslib 届 辑 库 中 。 
.INPUT 语句 创建 了 3 个 变量 : Product ID、Instock 和 Price。 
: 赋值 语句 创建 了 额外 的 变量 Cost， 表 示 库 存 成 本 为 其 价格 (Price) 的 15%。 
` DATALINES 语 和 句 标识 输入 数据 的 开始 ， 数 据 值 后 的 分 号 表示 输入 数据 的 结 来 。 
RUN 语句 表示 DATA 步 的 结束 。 
下 面 借助 每 一 步 输入 缓冲 区 和 PDV 中 的 数据 来 理解 提交 该 DATA 步 后 编译 和 执行 阶段 SAS 的 行为 。 


1) 提交 DATA 步 执行 时 ，SAs 首 先 编译 DATA 步 。 编 译 时 ，SAs 创 建 输入 缓冲 区 、PDV 和 数据 集 saslib. ea PDV 包 含 在 INPUT 语 句 中 的 变量 、 赋 值 语句 中 的 变量 Cost， 以 及 自动 产生 
的 变量 N_ 和 _ERROR_。 所 有 的 变量 ， 除 了 _N_ 和 _ERROR 以 外 ， 都 会 初始 化 为 缺失 值 。 数 字 变 量 的 缺失 值 由 点 (.) 表示 ， 字 符 变 量 的 缺失 值 由 空格 表示 。 此 时 的 输入 缓冲 区 和 PDV 中 的 内 容 如 图 2.17 所 


彬 入 缓 钟 区 : 


PDWV ， 
ERROR Product Instock Price Cost 


图 2.17 输入 缓冲 区 和 PDV 中 的 内 容 (1) 


2) 语法 正确 ，DATA 步 开始 执行 。INPUT 语 句 会 让 SAs 读 入 第 一 个 数据 ， 并 记录 到 输入 缓冲 区 。 此 时 的 输入 缓冲 区 和 PDV 中 的 数据 如 图 2.18 所 示 。 


输入 绥 可 区 : 
POOLIR 12 125.00 


PDYV: 
ERROR Produ [Instock Price Cost 


图 2.18 输入 缓冲 区 和 PDV 中 的 数据 (2) 


3) 根据 INPUT 语 句 中 的 指令 ，SAS 将 输入 缓冲 区 的 值 赋值 给 PDV 中 的 变量 。 此 时 的 输入 缓冲 区 和 PDV 中 的 数据 如 图 2.19 所 示 。 


输入 绥 促 区 : 
POOLR 12 125.00 


PDYV: 
N ERROR Product ID Instock Price Cost 


iT ug TD ah 


图 2.19 ”输入 缓冲 区 和 PDV 中 的 数据 〈3) 
4) SAs 执 行程 序 中 的 下 一 条 赋值 语句 : 


Cost=Price*0.15; 


该 赋值 语句 计算 变量 Cost 的 值 ， 并 将 该 值 写 入 PDV。 此 时 的 输入 缓冲 区 和 PDV 中 的 数据 如 图 2.20 所 示 。 


输入 绥 仲 区: 


POOIR 12 125.00 





PDYV: 
ERROR Product I [Instock Price Cost 


Er Ra an 


图 2.20 输入 缓冲 区 和 PDV 中 的 数据 (4) 





5) 这 时 ，DATA 步 的 这 一 次 迭代 结束 ， 程 序 自动 做 如 下 操作 : 

` 将 PDV 中 的 内 容 作 为 第 一 个 观测 写 入 数据 集 ， 记 住 ， 自 动 变量 N_ 和 _ERROR_ 不 会 被 写 入 。 
` 循环 到 DATA 步 最 开始 处 ， 开 始 下 一 个 迭代 。 

` 释放 输入 缓冲 区 的 记录 。 

` 在 PDV 中 ， 将 自动 变量 N_ 加 1， 重 置 自动 变量 ERROR 为 0， 并 将 其 他 变量 设置 为 缺失 值 。 


以 上 操作 完成 后 ， 输 入 缓冲 区 和 PDV 中 的 数据 如 图 2.21 所 示 。 


输入 缓冲 区 : 


| 


PDYV: 
N ERROR Product ID Instock Price Cost 


0 


图 2.21 输入 缓冲 区 和 PDV 中 的 数据 (5) 


6) 继续 执行 。INPUT 语 名 查找 下 一 条 观测 。 在 这 个 例子 中 ， 存 在 下 一 条 观测 ，INPUT 语 句 将 第 二 条 观测 读 入 到 输入 缓冲 区 。 此 时 ， 输 入 缓冲 区 和 PDV 中 的 数据 如 图 2.22 所 示 。 


彬 入 缓冲 区 : 


PEUU3 1 34 40.00 





PDYV: 
N ERROR Product ID [Instock Price Cost 


2 0 


图 2.22 ”输入 缓冲 区 和 PDV 中 的 数据 (6) 


7) 接 下 来 SAS 像 构建 上 一 条 观测 值 一 样 在 PDV 中 构建 下 一 条 观测 值 ， 并 将 PDV 的 内 容 写 入 数据 集 。SAS 执 行 完 赋值 语句 后 ， 输 入 缓冲 区 和 PDV 中 的 数据 如 图 2.23 所 示 。 


| P003T 34 40.00 


PDYV: 
N ERROR Product ID Instock Price Cost 





图 2.23 ”输入 缓冲 区 和 PDV 中 的 数据 (7) 
8) 整个 过 程 继续 ， 直 到 没有 其 他 观测 。DATA 步 迭代 次 数 与 读 取 的 原始 数据 观测 条 数 一 样 。 


9) SAS 关 闭 数据 集 Inventory， 本 DATA 步 执行 结束 ， 退 出 该 DATA 步 。 


2.2.2 ” 读 取 外 部 文本 文件 中 的 数据 (初级 ) 
在 使 用 DATA 步 读 取 外 部 文本 文件 中 的 数据 时 ， 需 要 给 SAS 提 供 读 取 原 始 数据 所 要 求 的 特定 信息 ， 例 如 原始 数据 的 位 置 、 数 据 集 变量 和 类 型 ， 以 及 SAS 如 何 读 数据 等 。SAS 会 根据 这 些 信息 创建 数据 集 。 


在 DATA 步 中 可 以 使 用 DATALINES 直 接 输 入 数据 ， 或 通过 INFILE 语 句 指定 原始 数据 文件 。 本 书 之 前 的 示例 代码 所 给 出 的 都 是 通过 DATALINES 直 接 输入 数据 。 但 在 实际 应 用 中 ， 要 分 析 的 原始 数据 往往 存 
储 在 外 部 文件 中 。 本 节 主 要 介绍 使 用 DATA 步 读 取 外 部 文本 数据 文件 中 的 数据 。 


在 读 取 原始 数据 文件 并 创建 SAS 数 据 集 之 前 ， 必 须 先 检查 原始 数据 文件 ， 确 定 要 读 取 的 数据 值 在 原始 数据 记录 中 的 格式 ， 并 基于 这 些 信息 选择 读 取 数据 时 使 用 的 方法 。SAS 提 供 了 以 下 3 种 基本 输入 方 
式 : 

列表 输入 

“ 按 列 输入 

` 格式 化 输入 

这 3 种 输入 方式 可 以 单独 使 用 ， 也 可 组 合 使 用 ， 还 可 以 和 SAS 提 供 的 各 种 修饰 符 以 及 指针 控制 结合 使 用 ， 例 如 与 输入 格式 、 行 控制 符 、 行 指针 控制 和 列 指针 控制 一 起 使 用 。 


使 用 DATA 步 读 取 外 部 文件 中 数据 的 基本 形式 如 下 : 


DATA 数据 集 名 称 ; 
NFILE 数据 文件 位 置 ; 
INPUT 变量 列表 ; 




















RUN; 


其 中 : 
* DATA 语 句 指定 数据 集 名 称 。 
“ INEFILE 语 多 指定 原始 数据 的 位 置 和 名 称 。 原 始 数据 文件 可 以 是 在 FILENAME 语 多 中 定义 的 文件 引用 形式 或 操作 系统 下 的 文件 路 径 。 
.INPUT 语句 用 于 告诉 SAS 如 何 读 取 数 据 。 


这 里 简单 介绍 如 何 使 用 FILENAME 定 义 文件 引用 。 在 INFILE 语 句 中 可 直接 使 用 带路 径 的 外 部 文件 名 称 ， 也 可 以 使 用 事先 由 FILENAME 语 句 赋值 的 文件 引用 。 使 用 FILENAME 语 句 可 以 将 SAS 文 件 引 用 与 
外 部 文件 或 者 存储 位 置 (存储 有 多 个 外 部 文件 ) 关联 起 来 ， 其 基本 形式 如 下 : 





FILENAME, 文件 引用 外 部 文件 | 外 部 文件 存储 位 置 ; 



































其 中 文件 引用 用 于 指定 文件 引用 的 名 称 ， 以 字母 开始 ， 可 包含 字母 、 数 字 和 和 下划线， 长 度 不 能 超过 8 个 字符 。 外 部 文件 则 给 出 了 一 个 带 完整 路 径 名 的 外 部 数据 文件 的 文件 名 ,或 者 一 组 文件 的 存储 位 置 。 
下 面 分 别 给 出 在 Windows 环 境 下 ，FILENAME 语 句 指定 单个 文件 和 一 组 文件 的 存储 位 置 定义 ， 以 及 在 INPUT 语 句 中 如 何 使 用 这 两 种 的 文件 引用 。 


1) FILENAME 语 句 指定 到 单个 文件 的 文件 引用 。 





filename invtfile 'c:\sas\data\inventory.dat'; 
data saslib.Inventory; 

infile invtfile; 

input Product ID $ Instock Price; 
run;y 加 






































2) FILENAME 语 句 指定 到 一 组 外 部 文件 存储 位 置 的 文件 引用 。 





filename extfiles 'c:\sas\data'; 
data saslib.Inventory; 

infi] xtfiles (inventory); 

input Product ID $ Instock Price; 
run; 加 









































本 章 后 面 的 例子 都 使 用 后 面 这 种 方式 引用 外 部 数据 文件 。 


1. 列 表 输 入 


列表 输入 (List Input) 用 于 读 取 原始 数据 记录 中 每 个 字段 由 至 少 一 个 分 隔 符 隔 开 ， 并 且 数 据 值 中 不 包含 该 分 隔 符 的 原始 数据 。 列 表 输入 默认 分 隔 符 为 空格 ， 连 续 的 分 隔 符 会 当成 一 个 分 隔 符 处 


理 ，INPUT 语 句 中 包含 了 简单 的 变量 名 称 列表 。 使 用 列表 输入 的 基本 形式 如 下 : 


~ 


DATA 数据 集 ; 
NFILE 文件 引用 ; 
INPUT 变量 1 <$> < 变量 2 <$> .. >; 























RUN 


其 中 : 


" 数据 集 指定 要 生成 的 数据 集 。 


` 文件 引用 指定 要 读 入 外 部 原始 数据 文件 。 





. 变量 1、 变 量 2 等 是 数据 集 的 变量 ， 变 量 与 变量 之 间 用 空格 分 隔 。 对 于 字符 变量 则 需 在 变量 后 加 字符 $。INPUT 语 名 顺序 地 将 原始 数据 记录 中 由 空格 隔 开 的 数据 值 读 入 到 所 列 出 的 变量 中 。 
(1) 原始 数据 各 个 字段 以 空格 隔 开 
当 原 始 数据 记录 中 的 数据 值 以 一 个 或 多 个 空格 隔 开 ， 且 数据 值 中 不 包含 空格 时 ， 可 使 用 默认 的 列表 输入 方式 。 


文件 inventory.dat (位 于 c: \sas\data 目 录 下 ) 的 内 容 如 下 : 

















本 章 所 有 的 示例 中 ， 都 假定 已 经 为 逻辑 库 引 用 名 saslib 指 定 了 SAs 逻 辑 库 ， 而 且 为 文件 引用 名 extfiles 指 定 了 所 有 外 部 数据 文件 所 在 的 位 置 。 


在 SAS 窗 口中 提交 如 下 代码 : 








data saslib.Inventory; 
infi] xtfiles (inventory); 
input Product ID $ Instock Price; 





























Urs 
proc print data=saslib.Inventory; 
run; 








INPUT 语 句 会 逐 行 顺 序 地 读 取 inventory.dat 中 的 数据 值 ， 并 赋值 给 变量 。 在 读 取 每 行 数据 时 ， 遇 到 空格 就 停止 读 入 当前 数据 值 ， 并 从 非 空格 处 读 入 下 一 个 数据 值 。 


PRINT 过 程 打 印 的 数据 集 内 容 如 图 2.24 所 示 。 


Product ID lnstock 





POVTIR 1 





POO03T1 34 


P3U1NI 


23 





PCOUZMN 12 


图 2.24 打印 的 数据 集 


上 述 的 列表 输入 代码 存在 如 下 限制 : 


* 使 用 列表 输入 时 ， 字 符 变 量 长 度 默认 为 8 个 字 节 。 


长 度 或 其 他 方式 来 解决 。 


: SAS 遇 到 空格 时 会 停止 读 入 当前 数据 值 ， 这 样 SAS 就 不 能 处 理 原 始 数据 记录 中 的 数据 值 包含 空 格 的 情况 了 。 


“ 原始 数据 中 必须 使 用 占 位 符 (.) 来 表示 该 数据 值 为 缺失 值 。 


(2) 使 用 LENGTH 语 句 指定 字符 变量 长 度 


指定 变量 长 度 的 LENGTH 语 句 的 基本 形式 如 下 : 


LENGTH 变量 1 





<$> 长 度 ”< 变量 2 ”<$> 长 度 >; 














aD 
2UU 
100 


当 输 入 数据 长 度 超过 8 个 字 节 时 ， 从 输入 缓冲 区 读 入 PDV 的 数据 值 会 产生 截断 。 这 个 问题 可 以 通过 在 INPUT 语 句 之 前 使 用 LENGTH 语 名 指定 该 





亦 


量 的 





通常 在 变量 第 一 次 出 现时 程序 会 根据 上 下 文 环境 确定 其 长 度 。 可 以 在 INPUT 语 句 前 通过 LENGTH 语 句 明确 指定 变量 长 度 。 


要 读 入 的 数据 文件 state.dat 中 的 原始 数据 记录 如 下 ， 在 该 记录 中 州 名 全 称 字符 长 度 超过 了 8 个 字 节 。 


WA Washington 
CA California 
AK Alaska 
AL Alabama 








如 果 使 用 不 带 LENGTH 语 句 的 列表 输入 的 代码 如 下 : 





data saslib.state; 














infile ext 
input Short Name $ S 


run; 
proc print da 
run; 








files (state); 





ta 


te $; 











ta=saslib.s 


1 


te noobs; 





PRINT 语 句 打印 的 数据 集 内 容 如 图 2.25 所 示 ， 可 以 看 到 ， 第 1 条 和 第 2 条 观测 中 State 变 量 的 数据 值 不 全 ， 都 出 现 了 截断 。 


Alabamsa 





图 2.25 ”数据 值 被 截断 


可 在 INPUT 语 句 前 加 LENGTH 语 句 ， 指 定 State 变 量 的 长 度 为 20 个 字符 。 修 改 后 的 SAS 代 码 如 下 : 


data saslib.state; 
Jength State $20; 
infile extfiles (state); 
input Short Name $ State $; 








runy 
proc print data=saslib.state noobs; 
run; 





这 时 ，PRINT 打 印 的 数据 集 的 内 容 如 图 2.26 所 示 。Sstate 变 量 中 的 州 名 完全 写 入 数据 集中 了 。 





State Short_Name 





VWashington WA 
Califomia CA 





AlasSKa AK 
Alabama AL 


图 2.26 ”加 LENGTH 语 和 句 后 的 输出 


可 能 已 经 注意 到 ， 打 印 的 数据 集中 变量 的 顺序 发 生 了 变化 。 这 是 因为 它们 的 顺序 由 DATA 步 中 变量 出 现 的 顺序 决定 ， 而 State 变 量 首先 在 LENGTH 语 句 中 出 现 ， 接 着 INPUT 语 句 才 会 出 现 Short_Name。 
但 是 ， 这 并 不 影响 数据 值 的 读 入 顺序 。 在 列表 输入 方式 下 ， 读 入 的 数据 值 顺 序 由 其 在 INPUT 语 句 中 出 现 的 顺序 确定 。 


(3) 使 用 INFILE 语 句 的 选项 DLM= 指 定 分 隔 符 
当 原 始 数 据 中 数据 记录 的 数据 值 未 使 用 空格 ， 而 是 使 用 其 他 分 隔 符 时 ， 需 在 INFILE 语 句 中 使 用 DLM= 选 项 ， 告 诉 SAS 读 入 数据 时 需要 使 用 的 分 隔 符 。 


下 面 将 上 面 外 部 数据 文件 的 内 容 稍 作 修 改 以 便 比 较 。 文 件 inventory_dlm.dat 的 内 容 如 下 ， 数 据 记 录 中 的 各 数据 值 之 间 由 逗号 (，) 隔 开 。 


POO1R, 12,125.00 
POO03T, 34, 40 .00 
P301M, 23, 500.00 
PCO2M, 12,100.00 




















正确 读 取 该 数据 文件 的 代码 如 下 : 





data saslib.Inventory; 
infile extfiles (inventory dim) dim="','; 
input Product ID $ Instock Price; 





























run; 
proc print data=saslib.Inventory noobs; 
run; 








PRINT 过 程 打 印 的 数据 集 与 上 例 一 样 ， 这 里 不 再 给 出 。 


使 用 DLM= 选 项 可 处 理 原 始 数 据 记录 中 数据 值 中 包含 空格 的 情况 。 此 外 ， 使 用 DLM= 选 项 的 DATA 步 也 可 以 很 好 地 处 理 数 据 中 的 缺失 值 。 如 果 接 连 有 多 个 指定 的 分 隔 符 ， 也 会 当成 一 个 分 隔 待 处理。 但 
如 果 分 隔 符 之 间 有 空格 ， 则 该 空格 会 当 作 和 缺失 值 读 入 变量 并 写 入 数据 集 。 例 如 ， 当 数据 文件 inventory_missing.dat 的 内 容 如 下 : 





POO1R, 12,125.00 
PO03T, 34, 40 .00 
P301M, ,500.00 
PCO2M, 12,100.00 














提交 与 上 例 相同 的 SAS 代 码 ， 记 得 将 外 部 数据 文件 名 字 改 为 Inventory_missing.dat。PRINT 过 程 打 印 的 数据 集 内 容 如 图 2.27 所 示 ， 其 中 第 3 个 观测 Instock 变 量 为 默认 值 。 





Product ID | Instock 
FUU1TR 12 125 
POO3T 34 40 
P301M pe 
PCO2M 12 100 

















图 2.27 打印 的 数据 集 内 容 
(4) 使 用 INFILE 语 句 的 选项 DSD 


指定 选项 DSD 后 ， 如 果 数 据 值 是 由 引号 引起 来 的 ， 可 以 将 数据 值 中 的 分 隔 符 当成 是 数据 值 的 一 部 分 读 入 ， 字 符 值 中 的 引号 在 读 入 PDV 时 会 被 删除 。DSD 选 项 将 默认 的 分 隔 符 设 置 为 逗号 ， 还 改变 了 使 用 
列表 输入 时 SAs 处 理 分 隔 符 的 方式 ， 比 如 ， 如 果 有 两 个 连续 的 逗号 ， 将 被 当 作 缺 失 值 。 


原始 数据 文件 customer_dsd.dat 的 内 容 如 下 ， 其 中 客户 的 地 址 信息 中 包含 了 逗号 ， 并 使 用 双 引 号 引起 来 ， 第 一 条 和 第 三 条 记录 中 的 客户 名 字 缺 失 。 


CO001,,"14 Bridge St. San Francisco, CA" 
C002, Emily Cooker,"42 Rue Marston" 
C002,,"52 Rue Marston Paris" 

CO05, Jimmy Cruze, "Box 100 Cary, NC" 














读 取 该 外 部 数据 文件 的 SAS 代 码 如 下 ， 代 码 中 还 使 用 了 LENGTH 语 句 指定 变量 长 度 。 


data saslib.customer; 
length Name $20 Address $40; 
infile extfiles (Customer dsd) dsd; 
input Customer ID $ Name $ Address $5; 























ELUNY 
proc print data=saslib.customer noobs; 
run; 








PRINT 过 程 打 印 的 数据 集 内 容 如 图 2.28 所 示 。 同 样 ， 因 为 SAS 先 编译 LENGTH 语 句 ， 所 以 数据 集中 Name 和 Address 变 量 出 现在 Customer ID 前 面 了 。 


Name Address Customer ID 
: 114 Bndge St. San Francisco, CA | C001 i 
Emily Cooker | 42 Rue Marston COO02 
52 RUe Marston Pans CO02 
Jimmy Cruze | Box 100 Cary, NC C005 


图 2.28 指定 DSD 选 项 后 的 打印 内 容 


选项 DSD 还 可 以 和 其 他 选项 (例如 DLM= 和 DLMSTR=) 一 起 使 用 。DLM = 在 上 面 介绍 过 ，DLMSTR= 用 于 指定 分 隔 数 据 值 的 字符 串 。 如 果 需 要 ， 可 以 查看 SAs 帮 助 文 档 获得 更 多 信息 。 


2. 按 列 输入 


当 原 始 数据 记录 中 的 数据 值 在 每 条 记录 中 占据 相同 的 列 时 ， 可 使 用 按 列 输入 的 方式 。 按 列 输入 (Column Input) 可 以 读 取 固定 列 的 数据 。 该 读 入 方式 的 INPUT 语 句 基本 形式 如 下 : 








INPUT 变量 1 <$> 开始 列 <- 结 束 列 > ”< 变量 2 ”<$> 开 始 列 <- 结 束 列 > ...>; 








其 


如 


开始 列 -结束 列 指 定 变量 在 原始 数据 记录 中 所 处 的 位 置 。 

. 变量 长 度 由 为 该 变量 指定 的 列 数 确定 ， 可 以 超过 8 个 字 节 。 
. 按 列 输入 可 读 入 包含 空格 的 数据 值 。 

. 可 以 处 理 数据 中 的 缺失 值 ， 不 需要 使 用 占 位 符 。 


文件 customer.dat 的 内 容 如 下 ， 其 中 ， 第 1~ 14 列 为 产品 编号 ， 第 16~26 列 为 附属 品牌 ， 第 28~29 列 为 专卖 店 数 ， 第 31~35 列 为 产品 库存 数 。 











C001 14 Bridge St. San Francisco CA 
C002 Emily Cooker 42 Rue Marston 

CO02 52 Rue Marston Paris 

C005 Jimmy Cruze Box 100 Cary NC 





读 入 该 原始 文件 中 数据 的 SAS 代 码 如 下 : 





data saslib.customer; 
infile extfiles (customer); 
input Customer ID $ 1-4 Name $ 6-19 Address $ 21-37 City $ 39-51 State $ 53-54 ，; 























run; 
proc print data=saslib.customer noobs; 
run; 














PRINT 过 程 打 印 的 数据 集 内 容 如 图 2.29 所 示 。 


Customer ID Name Address Clty tate 
COO1 14 Bridge St. San Francisco | CA 
COO2 Emily Cooker 42 Rue Marston 

COO02 2 Rue Marston Pans 

LUU> Jimmy Cruze Box 100 Cary NC 


图 2.29 ” 按 列 输入 后 的 打印 内 容 


在 列表 输入 方式 下 ， 读 入 的 数据 值 由 指定 的 列 号 确定 ， 所 以 使 用 列表 输入 可 以 以 任何 顺序 读 入 列 ， 而 且 可 跳 过 一 些 列 、 不 读 入 到 数据 集中 或 重复 读 取 数据 记录 中 的 数据 值 。 


3. 格 式 化 输入 


(1 
值 。 


上 面 介 绍 的 按 列 输入 与 列表 输入 一 样 ， 只 能 读 取 标准 的 字符 或 数字 值 到 数据 集中 。 其 实 ，SAS 还 可 以 读 取 特殊 格式 的 数字 数据 ， 例 如 二 进 制 数据 、 日 期 /时 间 (01FEB2013) ， 或 者 包含 逗号 
，262) 、 货 币 符号 ($87.3) 等 特殊 字符 的 数字 值 。 在 这 种 情况 下 ， 就 需要 使 用 格式 化 输入 (formatted input) 了 ， 即 在 INPUT 语 句 中 提供 特殊 的 指令 ， 以 便 SAS 正 确 地 读 取 原始 数据 记录 中 的 数据 
这 些 特 殊 指令 称 为 输入 格式 (Informat) 。 格 式 化 输入 组 合 了 按 列 输入 特征 和 读 取 非 标准 化 数字 或 字符 值 的 能 力 ， 保 证 数据 值 可 正确 地 从 原始 数据 记录 中 读 入 。 


对 单个 变量 ， 格 式 化 输入 的 INPUT 语 句 的 基本 形式 如 下 : 


INPUT 变量 <$> 输入 格式 ; 





数值 型 和 字符 型 最 基础 的 输入 格式 形式 分 别 为 n. 和 $n， 例 如 10. 和 $20.， 表 示 从 输入 缓冲 区 的 当前 列 控制 指针 处 分 别 读 取 10 列 和 20 列 ， 并 赋值 给 对 应 变量 。 对 于 字符 变量 ， 输 入 格式 还 指定 了 变量 的 长 
而 数字 型 变量 的 长 度 仍然 为 8。 


除了 这 些 基础 的 格式 外 ，SAS 还 提供 了 一 些 格式 用 于 读 入 特殊 格式 的 数字 值 ， 例 如 前 面 提 到 的 读 入 带 $ 符 号 的 数字 或 日 期 时 间 值 。 同 时 ，SAS 还 支持 自 定义 格式 ， 在 本 书后 面 的 章节 会 介绍 。 


来 看 个 示例 ， 原 始 数据 文件 sales.dat 的 内 容 如 下 ， 该 文件 中 原始 数据 记录 包含 字段 依次 为 员工 ID、 部 门 、 销 售 额 和 上 次 修改 日 期 ， 其 中 销售 额 和 日 期 都 不 是 标准 数字 值 ， 需 使 用 对 应 的 输入 格式 。 


























ET001 TSG $10000 01JAN2012 
EDOO2 $12000 O01FEB2012 
ET004 TSG $5000 O02MAR2012 
EC002 CSG $23000 0l1APR2012 
ED004 QSG 01AUG2012 














读 入 处 理 该 文件 的 SAS 代 码 如 下 ， 其 中 Sales 和 Date 变 量 分 别 使 用 了 输入 格式 comma6. 和 date9.，Emp_ID 和 Dept 使 用 的 是 上 面 介 绍 过 的 按 列 输入 方式 。 








data saslib.sales; 
infi] files (sales); 
input Emp ID $1-5 Dept $7-9 +1 Sales comma6. Q@22 Date date9.; 














可 
(0 
(0 
% 
( 

















run; 
proc print data=saslib.sales noobs; 








PRINT 过 程 打印 的 数据 集 内 容 如 图 2.30 所 示 。SAs 的 日 期 、 时 间 以 数字 形式 存储 。 所 以 打印 的 数据 集中 Date 变 量 的 值 为 数字 ， 其 实 可 通过 输出 格式 (format) 输出 为 更 加 易 读 的 形式 。 


SAs 提 供 了 commaw. 和 datew. 等 很 多 格式 ， 用 于 读 取 对 应 的 带 侯 入 符号 和 日 期 的 数字 值 ， 其 中 的 w 表 示 读 入 数据 的 总 宽度 ， 包 含 美元 符号 。 输 入 格式 将 数据 值 中 庶 入 的 $ 符 号 转换 成 了 不 带 美元 符号 的 
数字 值 写 入 到 PDV 中 ， 并 最 终 写 入 数据 集 ， 如 图 2.31 所 示 。 


Emp_ID Dept Sales Date 
ETOO01 TSG | 10000 | 18993 
ED002 12000 | 19024 
ET004 TSG S000 | 19054 
ECO002 CS | 243000 
FDUOUA 生 记 1 





图 2.30 ”格式 化 输入 数据 的 打印 内 容 


$10000 ”一 一 一 10000 


$12000 ”一 -一 一 一 12000 





$5000 ”一 一 一 S000 


图 2.31 带 格式 数据 的 输入 与 输出 


在 INPUT 语 句 中 ， 还 使 用 了 相对 列 控制 符号 +1 和 绝对 列 控 制 符 号 @22， 分 别 表示 将 当前 的 输入 列 控制 指针 向 前 移 1 位 和 将 该 指针 直接 移动 到 列 22。 在 上 面 的 示例 中 ， 程 序 读 入 一 行 记录 到 输入 缓冲 区 
后 ， 列 控制 指针 的 移动 情况 如 下 : 


. 第 1~5 列 写 入 Emp_ID， 列 控制 指针 在 第 6 列 。 

` 第 7~9 列 写 入 Dept， 这 时 列 控制 指针 在 第 10 列 。 

“ 十 1 将 列 控 制 指针 移 到 第 11 列 。 

“ 开始 读 入 comma6. 中 指定 的 6 列 ， 即 将 第 11~16 列 使 用 输入 格式 转换 后 写 入 Sales， 这 时 列 控制 指针 在 第 17 列 。 

` @22 将 控制 指针 直接 移 到 第 22 列 ， 读 入 date9. 中 指定 的 9 列 ， 即 第 22~30 列 ， 然 后 使 用 该 输入 格式 进行 转换 ， 并 写 入 Date。 


SAs 还 提供 了 丰富 的 输入 格式 以 便 读 入 各 种 形式 的 数据 值 。 下 面 给 出 了 SAs 提 供 的 常用 数字 、 字 符 、 日 期 、 时 间 、 日 期 时 间 输 入 格式 ， 如 表 2.1 和 表 2.2 所 示 。 关 于 这 些 输入 格式 的 详细 使 用 方法 ， 请 参考 


SAs 帮 助 文档 学 习 。 


表 2.1 常用 数字 和 字符 输入 格式 








格式 名 称 摘 述 
SBINARYW 将 二 进 制 数据 转换 为 字符 数据 
SCHARW 法 取 刘 空格 的 字符 数据 
9$wW-. 
BINARYw. d 将 正 . 负 为 整数 
COMMAw.d 污 取 数字 值 并 将 租 人 的 字符 删除 
w.d 
表 2.2 常用 的 SAS 日 期 、 时 间 、 日 期 时 间 输 入 格式 
格式 名 称 摘 述 
以 ddmmm<vyy>vyy 的 形式 读 取 SAS 日 期 值 
DATEw. OY | 字符 1 
月 、 年 之 间 可 以 有 空格 或 其 他 特殊 字 
以 ddmmm<yy>yy hh:mm:ss.ss 的 形式 证 取 SAS 时 间 日 扑 
DATETIMEW. 时 | 总 Re 四 a lm 
值 。 其 中 ， 日 期 和 时 间 之 间 可 以 有 空格 或 特殊 字 逢 
以 ddmm<vv>yv 的 形式 读 取 SAS 日 期 值 。 其 中 日 、 月 、 年 之 
DDMMYYw. yy>yy 的 形式 人 


MDYAMPMw.d 


MMDDYYw. 


MONYYw. 


TIMEWw 


YMDDTTMw.d 


Y YMMDDw. 


YYMMNW. 


4. 带 修饰 的 列表 输入 


入 数据 。 前 面 讲 到 列表 输入 时 ， 提 到 列表 输入 的 一 些 限制 ， 例 如 所 创建 的 变量 长 度 为 8 个 
如 下 格式 的 修改 符 来 消除 这 些 限制 ， 











间 可 以 有 空格 或 特殊 字符 ， 并 且 年 份 可 以 是 2 位 也 可 以 是 4 位 

以 mmdd<yy>yy hh:mm<:ss<.ss>>< AMIPM> 的 形式 庶 取 时 
间 日 期 值 。 其 中 月 、 日 、 年 之 间 可 以 有 空格 或 特殊 字 和 有 
目 年 份 可 以 是 2 位 也 可 以 是 4 位 

以 mmdd<yy>yy 的 形式 读 取 SAS 日 期 值 ， 其 中 月 、 ~ 
间 可 以 有 空格 或 特殊 字 待 ， 并 且 年 份 可 以 是 2 - J 一 人 是 4 位 

以 mmmyy<yy> 的 形式 读 取 SAS 日 期 值 ， 之 间 也 可 
以 有 空格 或 特殊 字符 

以 hh:mm:ss<.ss><AMIPM> 的 形式 话 取 SAS 时 间 值 的 时 分 
秒 ， 其 中 小 时 、 分 钟 和 秒 之 间 可 以 是 “:” 或 “… 

以 <yy>yy-mm-dd hh:mm:<ss<.ss>> 的 形 式 取 SAS 时 间 
值 ， 时 间 和 日 期 组 件 之 间 可 以 有 空格 和 特 丈 字 

以 <yy>yymmdd 的 形式 写 SAS 日 期 值 汪 月 、 日 之 
间 可 以 有 空格 和 特殊 字符 ， 并 且 年 份 可 以 是 2 位 也 可 以 是 4 位 





以 <yy>yymnm 的 形式 写 SAS 日 期 值 。 格 式 名 称 中 的 N 表 
示 该 格式 中 年 和 月 的 值 之 间 不 能 被 空格 或 特殊 字符 分 隅 


示 例 
0100110001001101 
$CHAR20. 
$20. 

10100101 
$12.038.45 


le 


示 例 


26jan13 、26jan2013 、26-jan-2013 


26]an13 03:53:00.4、26]an2013: 
03:53:00.4 

260113、26012013、26/01/13、 
26-01-2013 


01:20.2013 0353:00、 
01-26-13 3.33 pm 


DI2613 01202013. UNA20 4 
01/26/2013 


]an13 、]an 2013、jan-2013 


2013-01-26 11:26:07.4、2013 
01 26 11 26 07.4、12.3.26/11:26 


130126、20130126、13-01-26、 
2013-01-26 


13]Jan 、2013]jan 


在 学 习 格 式 化 输入 时 ， 我 们 知道 了 输入 格式 的 概念 。 本 节 将 列表 输入 、 输 入 格式 和 修饰 符 结合 起 来 ， 结 合 后 就 成 了 带 修 饰 的 列表 输入 机 list pi ， 这 样 可 以 使 用 列表 输入 方式 更 灵活 地 读 


进而 增加 了 列表 输入 的 灵活 性 。 


* 区 修饰 符 〈ampetsand format modifier) : 使 用 列表 输入 时 ， 该 修改 符 能 够 读 入 数据 值 中 包含 一 个 或 多 个 嵌入 空格 的 字符 值 ， 并 指定 字符 的 输入 格式 。SAS 读 入 数据 直到 遇 到 两 个 连续 的 空格 或 达到 所 定 
义 的 数据 长 度 或 输入 行 结束 才 停 止 。& 修 饰 符 解决 了 使 用 列表 输入 方式 读 取 数据 值 中 包含 谱 入 空格 的 问题 ,但 要 求 该 包含 空格 的 数据 值 与 下 一 个 数据 值 之 间 至 少 间隔 两 个 空格 。 


修饰 符 (colon format modifier) : 


二 


使 用 列表 输入 时 ， 该 修改 符 可 以 在 变量 名 后 指定 输入 格式 。SAS 读 入 数据 直到 遇 到 空 列 、 达 到 所 定义 的 数据 长 度 〈《 对 字符 型 变量 来 说 ) 或 输入 行 结 束 才 停止 


符 可 以 读 取 超 过 8 个 字 节 的 字符 数据 和 包含 特殊 字符 的 数字 字符 。 


: ~ 修饰 符 (tilde forat modifier) : 


可 以 读 入 并 保持 数据 值 中 的 单 引 号 、 双 引号 和 分 隔 符 。 


接 下 来 通过 示例 来 学 习 修饰 的 列表 输入 。 注 意 ， 下 面 的 示例 中 没有 使 用 ~ 格式 修改 符 ， 有 兴趣 的 读者 可 参考 SAs 帮 助 文档 进行 学 习 。 


原始 数据 文件 customer2.dat 的 内 容 如 下 ， 每 条 记录 包含 联系 人 信息 : 客户 ID、 名 字 和 出 生日 期 ， 其 中 名 字 里 面 伐 入 了 空格 ， 可 使 用 & 修 饰 
空格 。 


符 读 入 。 注 意 ， 


这 
六 


使 用 & 修 饰 符 要 求 名 字 和 出 生日 期 之 间 为 两 个 





C001 Willam Smith 220ct1 











C002 Emily Cooker O01JAN] 











CO002 Geroge Collin 09MAR1 
C005 Jimmy Cruze 25Uun1l 





970 
978 
968 
092 





处 理 该 数据 的 SAs 代 码 如 下 ， 其 中 ，Name 变 量 使 用 了 & 修 饰 符 读 入 带 空格 的 名 字 ， 并 指定 输入 格式 为 920.， 所 以 Name 变 量 的 字符 长 度 为 20 个 字 节 ， 而 且 SAS 会 将 缓冲 区 中 的 20 个 字符 读 入 Name。 
Birth_Date 使 用 了 : 修饰 符 读 入 日 期 格式 的 数据 。 





data saslib.customer2; 
infile extfiles (customer2); 
input Customer ID $ Name & $20. Birth Date:date9.; 




















run; 
proc print data=saslib.customer2 noobs; 
run; 











PRINT 过 程 打印 的 数据 集 如 图 2.32 所 示 ， 所 有 数据 值 都 正确 读 入 到 了 数据 集中 。 


Customer ID Name Birth Date 


LUU1 Willam Smith dOd) 
CO02 Emily Cooker 6575 





LUUz (erogde Collin 
LO005 JimmYy 人 TUZE 4959 


图 2.32 ” 带 修饰 的 列表 输入 数据 的 打印 内 容 


5. 命 名 输入 


命名 输入 (named input) 读 取 包 含 变量 名 、 等 于 符号 和 变量 值 的 输入 数据 ， 例 如 Name=Willam。 命 名 输入 的 基本 形式 如 下 : 








INPUT 变量 1= <$> < 变量 2= <S> .>; 





使 用 命名 输入 方式 时 ，INPUT 语 句 从 输入 指针 的 当前 位 置 读 取 输入 数据 。 如 果 原始 数据 记录 开始 处 不 是 命名 形式 ， 则 可 以 在 开始 部 分 使 用 其 他 输入 风格 ， 接 着 再 使 用 命名 方式 读 入 数据 。 但 是 ,一 旦 
INPUT 语 句 开 始 使 用 命名 输入 方式 ， 接 下 来 的 数据 值 则 必须 也 是 命名 形式 。 


例如 ， 原 始 数据 文件 named.dat 内 容 如 下 ， 第 二 、 三 个 字段 为 命名 形式 。 





C001 Name=Willam Age=43 
C002 Name=Emily Age=35 
C002 Name=Geroge Age=45 
C005 Name=Jimmy Age=41 














使 用 命名 输入 读 入 第 二 、 三 个 字段 Name 和 Age， 第 一 个 字段 Customer_ID 变 量 使 用 列表 输入 。 代 码 如 下 : 


data saslib.customer; 
infile extfiles (named);} 
input Customer ID $ Name= $ Age=; 

















run; 
proc print data=saslib.customer noobs; 
run; 








PRINT 过 程 打 印 的 SAS 数 据 集 内 容 如 图 2.33 所 示 。 





illam 43 


Customer ID 
LUU1 
CO02 Emily 35 





























LUUz GEerode A 
CO0S Jimmy 41 


图 2.33 命名 输入 数据 的 打印 内 容 


命名 输入 还 可 以 和 其 他 语句 (例如 LENGTH 语 句 定义 变量 长 度 ) 以 及 其 他 输入 方式 结合 ， 提 供 更 多 的 灵活 性 来 读 取 外 部 数据 文件 。 


在 使 用 INPUT 语 句 时 不 限于 使 用 一 种 输入 方式 ， 可 以 在 一 条 INPUT 语 句 中 混合 使 用 这 些 输入 方式 ， 只 要 可 以 适当 地 描述 原始 数据 记录 就 行 。 在 前 面 格式 化 输入 的 示例 中 已 经 组 合 了 按 列 输入 方式 和 格式 
化 输入 方式 ， 这 里 再 将 3 种 基础 输入 方式 组 合 。 

















原始 数据 文件 mixedinput.dat 的 内 容 如 下 ， 其 中 依次 包括 了 课程 编号 、 课 程 名 称 、 开 课 日 期 和 报名 人 数 等 信息 。 
EM01 SAS Base Programming 2206t2013. 22 

PMO2 SAS Advanced Programming O01l1JAN2013 15 

TMO1 SAS Text Mining 09MAR2013 8 

SYO5 SAS System Administration 25Uun2013 12 














列表 输入 读 取 Course_ID 和 Attendee、 按 列 输入 读 取 Course_Name、 格 式 化 输入 读 取 Open_Date。 代 码 如 下 : 





data saslib.mixedinput; 
infile extfiles (mixedinput); 
input Course ID 
Course Name $ 6-30 
@32 

















Open Date date9. 


Attendee; 
run; 
proc print data=saslib.mixedinput noobs; 
run; 


PRINT 过 程 打 印 的 数据 集 内 容 如 图 2.34 所 示 。 各 个 数据 值 都 被 正确 地 从 数据 文件 读 入 ， 并 写 入 数据 集 。 


Course ID ,Course Name Open Date Attendee 














PMO1 SAS Base Programming 19653 2 
PMO2 SAS Advanced Programming 19359 15 








MI SAS Text Mining 19426b 0 
SY0S5 SAS System Administration 19534 12 


图 2.34 混合 输入 数据 的 打印 内 容 


2.2.3 读 取 外 部 文本 文件 中 的 数据 (高 级 ) 


在 创建 SAs 数 据 集 时 ， 根 据 数 据 文件 的 格式 ， 经 常会 需要 使 用 更 加 高 级 的 特征 来 正确 有 效 地 将 原始 数据 文件 的 记录 (或 行 ) 转换 为 数据 集 。 例 如 : 
. 对 原始 数据 记录 中 的 数据 长 度 不 够 TINPUT 语 句 中 所 有 变量 读 取 的 情况 进行 处 理 ; 

. 在 创建 SAS 数 据 集 的 观测 前 先 测试 条 件 是 否 成 立 ; 

. 在 单条 数据 记录 中 创建 多 个 观测 ; 


. 从 多 个 原始 数据 记录 中 创建 单条 观测 ; 


1. 使 用 INFILE 语 名 的 选项 


当 DATA 步 从 外 部 文件 中 读 取 原 始 数据 记录 时 ， 如 果 SAS 在 为 所 有 变量 读 到 数据 之 前 就 遇 到 了 输入 行 的 未 尾 ， 可 能 会 有 问题 ， 尤 其 是 当 INPUT 语 句 要 求 读 入 的 变量 长 度 超过 输入 缓冲 区 中 的 数据 ， 或 记录 
中 包含 缺失 值 又 没有 占 位 符 时 。 上 默认 情况 下 ，SAS 读 入 一 行 记录 ， 当 INPUTi 语 句 在 当前 输入 行 找 不 到 所 有 的 数据 值 时 ， 会 自动 读 入 下 一 行 数据 记录 ，DATA 步 中 的 语句 继续 执行 ， 但 可 能 产生 意外 结果 ( 即 未 
按 预期 读 入 数据 ) 。 这 时 ， 可 以 在 INFILE 语 句 中 指定 MISSOVER、TRUNCOVER 或 STOPOVER 选 项 ， 从 而 改变 SAS 的 默认 行为 。 


. FLOWOVER: 即 上 面 描 述 的 默认 情况 ，INPUT 语 名 会 读 入 下 一 条 记录 到 输入 缓冲 区 中 ， 给 当前 PDV 中 未 赋值 的 变量 赋值 。 


* MISSOVER: 会 在 DATA 步 的 本 次 迭代 中 阻止 [INPUT 语句 读 入 原始 数据 的 下 一 条 记录 ， 并 将 PDV 中 所 有 未 赋值 的 变量 保持 为 缺失 值 (PDV 中 变量 未 典 值 时 就 为 缺失 值 ) 。 当 原始 数据 记录 中 的 最 后 一 


个 或 多 个 字段 没有 值 ， 并 且 希 望 SAS 将 对 应 的 变量 置 为 缺失 值 时 使 用 MISSOVER。 


. TRUNCOVER: 也 会 阻止 INPUT 语 名 读 入 原始 数据 的 下 一 个 记录 ， 但 对 于 当前 正在 读 入 的 变量 ， 当 输入 缓冲 区 中 的 数据 长 度 少 于 当前 变量 要 求 的 长 度 时 ， 则 将 当前 输入 缓冲 区 中 的 数据 赋值 给 PDV 中 


的 该 变量 。 所 有 未 赋值 的 变量 置 为 缺失 值 。 
. STOPOVER: DATA 步 的 执行 会 停止 。 
下 面 通过 一 些 示例 来 帮助 理解 这 些 选项 的 作用 。 
例 2.4: 选项 MISSOVER。 


外 部 数据 文件 missover.dat 的 内 容 如 下 ， 依 次 包括 课程 编号 、 课 程 名 称 、 参 加 课程 人 数 和 讲师 姓名 等 信息 。 其 中 第 二 条 记录 中 未 提供 参加 课程 人 数 和 讲师 姓名 ,也 没有 占 位 符 。 





PMO1, SAS Base Programming,22,Greg William 
PMO2, SAS Advanced Programming 

TMO1, SAS Text Mining,8,Kevin Wynne 

SYO5, SAS System Administration,12,Jenny Hagen 

















下 面 为 使 用 默认 的 FLOWOVER 选 项 代码 : 


data saslib.default; 
length Course Name $30 Instrutor $20; 


infile extfiles (missover) dsd; 
input Course ID $ Course Name $ Attendee Instrutor $; 



































run; 
proc print data=saslib.default noobs; 
ZUn7 








PRINT 过 程 打印 的 数据 集 如 图 2.35 所 示 。 


Course Name Instrutor Course_ ID Attendee 
SAS Base Programming Greg William PMOI] 22 
SAS Advanced Programming | SAS Text Mining , PMO2 
SAS System Administration | Jenny Hagen SY05 12 


图 2.35 ”未 使 用 选项 MISSOVER 的 输出 


所 生成 的 数据 集中 共有 3 个 观测 。 在 第 二 个 观测 中 ，Instrutor 变 量 值 为 原始 数据 文件 中 第 三 条 记录 的 部 分 记录 ，Attendee 为 缺失 值 。 这 是 因为 在 第 二 次 迭代 时 INPUT 语 句 读 完 Course_Name 后 ， 友 现 
第 二 条 原始 数据 记录 已 经 没有 值 可 供 INPUT 语 句 给 PDV 中 的 Attendee 和 Instrutor 赋 值 了 ， 所 以 SAS 读 入 第 三 条 原始 数据 记录 到 输入 缓冲 区 中 。 这 时 输入 缓冲 区 的 第 一 个 数据 值 “TM01” 为 字符 值 ， 与 
Attendee (数字 型 变量 ) 的 类 型 不 匹配 ， 所 以 PDV 中 Attendee 为 缺失 值 ， 第 二 个 数据 值 “SAs Text Mining” 则 赋值 给 了 PDV 中 的 Instructor 变 量 。 接 着 ， 进 行 DATA 步 的 第 三 次 迭代 ， 读 入 第 四 条 原始 数 
据 记 录 。 


查看 日 志 窗口 中 DATA 步 执行 的 日 志 ， 如 图 2.36 所 示 。 其 中 提示 信息 表示 “TM01” 对 数值 型 变量 无 效 。 而 且 “NOTE: INPUT 语 句 到 达 一 行 的 末尾 ，SAs 已 转 到 新 的 一 行 。” 这 句 注释 表示 SAS 在 该 次 
迭代 中 间 (正常 情况 下 ， 仅 在 迭代 开始 时 读 入 数据 行 ) 从 输入 数据 文件 中 读 入 了 新 行 。 


时 日 志 = 无 标量 

z369 data saslib.missover; 

2318 length Course Name $30 Instrutor $20; 
2311 infile mofl] dsd: 

a412 

2313 Fun; 


NOTE: INFILE MOFL 性 : 
件 名 =c:vsasvdatavmissouer-dat， 
RECFH=V ,LRECL=32767 ,六 件 大 小 【 字 节 ) =157， 


= 如 和 
Eh ee 


NOTE: 在 第 3 行 ， 第 174 列 中 有 对 “ttendee” 无 效 四 数据 。 


3 Er Ti A Ce 34 


NOTE: NHame=3Ah3 Advanced 9 Instrutor=SnhsSs Text Hining Course ID=PHBe2 Attendee=. 


NOTE : 


NOTE : A 本 
NOTE : 新 二 人 到 这 MISSOUER 
NOTE : Re 证 和 名 ”所 用 时 | 间 
实际 上 可 6.-69 
CPU 时 | 避 


Pe 


8. 01 7 少 


图 2.36 ”DATA 步 执行 的 日 志 


下 面 在 INFILE 语 句 中 加 上 MISSOVER 选 项 ， 代 码 如 下 : 


input Course_ID $ COUPSe_Mame $ Attendee Instrutor $; 


5 一 一 4 一 一 一 一 和 一 一 一 + 一 一 一 一 了 一 一 一 一 + 一 一 一 自 一 一 一 


_ERRO 








data saslib.missover; 

length Course Name $30 Instrutor $20; 
infile extfiles (missover) dsd missover; 
t Course ID $ Course Name $ Attendee 





























Instrutor $; 








proc print data=saslib.missover noobs; 
run; 





的 预期 ， 


汪 


PRINT 过 程 打印 的 数据 集 如 图 2.37 所 示 。 可 以 看 到 ， 原 始 数据 记录 如 我 们 所 预期 的 那样 读 入 了 数据 集中 。 


Course Name Instrutor 


SAS Base Programming 
SAS Adyanced Programming 


SAS Text Mining KeyvIn Wynne 


SAS System Administration | Jenny Hagen 


图 2.37 使 用 MISSOVER 选 项 的 输出 
例 2.5: 选项 TRUNCOVER.。 


默认 情况 下 (选项 为 FLOWOVER) 


也 会 将 当前 输入 行 的 数据 赋值 给 当前 处 理 的 变量 ， 并 将 其 他 没有 赋值 的 变量 设置 为 缺失 值 。 


TRUNCOVER 选 项 常用 于 处 理 变 长 的 原始 数据 记录 ， 可 在 INPUT 语 句 中 定义 足够 长 度 的 变 


， 以 便 进 一 步 处 理 。 


原始 数据 文件 comments.dat 的 内 容 如 下 ， 共 3 条 记录 ， 全 部 为 文本 ， 文 本 长 度 不 确定 。 


Greg William 


， 即 使 当前 数据 记录 中 的 数据 长 度 小 于 变量 


1D Attendee 
过 


Course_ 
PMOI1 
PMO2 
TMOT 5 
SYO05 


， 当 原始 数据 记录 长 度 小 于 INPUT 语 句 的 预期 时 ，INPUT 语 句 自动 读 入 下 一 条 数据 记录 。 当 指定 选项 TRUNCOVER 时 ， 即 使 当前 输入 行 数据 的 长 度 小 于 INPUT 语 句 














Action brought Community Plant Variety Office Action brought Community Plant Variety 
Office Parties Applicants 
Commission Regulation September 1995 concerning 
as foreseen under Council Regulation 
Commission Regulation establishing the standard import values for determining the 
entry price of certain fruit and vegetables Commission Regulation (EC) No 
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priority substances 
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使 用 TRUNCOVER 选 项 读 入 该 文件 记录 。 设 置 变量 Text 的 输入 格式 为 “$500.”， 当 原始 记录 中 文本 长 度 不 足 500 个 


字符 时 ，TRUNCOVER 选 


指定 的 长 度 ， 也 可 以 将 该 记录 从 缓冲 区 读 入 PDV， 并 写 入 数据 


项 会 将 当前 输入 缓冲 区 中 的 所 有 内 容 写 入 PDV， 并 写 入 数据 


data saslib.truncover; 
infile ext Sen truncover; 
input Text $500.; 




















run; 
proc print data=saslib.truncover noobs; 
run; 





PRINT 语 句 打印 的 数据 集 内 容 如 图 2.38 所 示 。 可 以 看 到 ， 所 有 的 评论 信息 都 读 入 了 数据 集中 。 


Text 

Betion brought Comrmunity Plant Variety Office Action brought Community Plant Varety Office Parties Applicants 

Commission Regulation September 1995 conceming the second list of prionty substances as foreseen under Coumcil Regulation 

Commission Regulation establishing the standard import values for determining the entry price of certain fruit and vegetables Commission Regulation (EC) No 


图 2.38 ”使 用 TRUNCOVER 选 项 的 输出 


MISSOVER 与 TRUNCOVER 的 不 同 之 处 在 于 ， 如 果 当 前 变量 没有 读 到 要 求 长 度 的 数据 ，MISSOVER 会 将 当前 变量 的 值 也 置 为 缺失 值 。 还 是 以 上 面 的 示例 为 例 ， 如 果 将 TRUNCOVER 换 成 MISSOVER， 所 
生成 的 数据 集中 3 个 观测 值 都 为 缺失 值 。 


例 2.6: 选项 STOPOVER。 
当 INPUT 语 句 在 当前 输入 行 找 不 到 所 有 数据 值 时 ， 如 果 在 INFILE 语 句 中 使 用 选项 STOPOVER，SAS 会 停止 执行 该 DATA 步 。 


使 用 前 面 用 到 的 数据 文件 missover.dat， 内 容 如 下 : 








PMO1, SAS Base Programming,22,Greg William 
PMO2, SAS Advanced Programming 

TMO1, SAS Text Mining,8,Kevin Wynne 

SY05, SAS System Administration,12,Jenny Hagen 

















使 用 STOPOVER 选 项 的 代码 如 下 : 


data saslib.stopover; 
length Course Name $30 Instrutor $20; 
infile extfiles (missover) dsd stopover; 
Sp Course ID $ Course Name $ Attendee Instrutor $; 



































proc print data=saslib.stopover noobs; 
run; 


DATA 步 执行 的 日 志 如 图 2.39 所 示 。 此 时 ， 在 日 志 窗 口 会 给 了 出 错误 消息 “INPUT 语 句 超过 记录 长 度 ”， 并 且 SAS 系 统 停止 处 理 DATA 步 。 


曾 日志 - (无 标题 
data es 
2483 length Course Name $30 Instrutor $20; 
2484 infFile mofl dsd stopover; 
2485 input Course ID $ Course Name $ fttendee Instrutor $$; 
2486 Fun: 


MOTE: INFILE MOFL 是 : 
ht 汉人 


信人 20 宇和 a 
创建 时 | 目 i 3 年 11 月 11 日 ”权时 27 旋 942 种 


ERROR: INPUT 语 避 超过 记录 长 度 。 已 指定 INFILE cx:vsasvdatavmissouer-dat OPTION STOPOUER 。 


RULE : 天 ML td week re wu :wii ep am yw- cc ie .dt 
2 PHG2 ,SAS Aduanced Programming 29 
Course Name=ShsS Advanced Programming Instrutor= Course ID=PMHB2 fttendee=. _ERROR =1 _N_ =2 


NOTE : INFILE MOFL | 基 取 了] 2 条 记录 。 
oe 3 
a shS 系统 停止 处 理 该 上。 


全 SSLIB-STOPOVER I 完整 。 该 步 停止 时 ， 共 有 1 个 观测 和 4 个 变量 
十 可 (点 处 理 时 间 》 
sp 





图 2.39 日 志 中 输出 错误 消息 


PRINT 语 句 打印 的 数据 集 内 容 如 图 2.40 所 示 。 可 以 看 到 ， 所 生成 的 数据 集中 只 有 一 个 观测 。 因 为 在 处 理 第 二 条 原始 数据 记录 时 ， 输 入 数据 缓冲 区 中 没有 供 Attendee 和 Instructor 变 量 读 取 的 数据 ，SAs 
处 理 停止 执行 该 DATA 步 了 。 


Text with STOPOVER Option 


Course Name Instrutor Course ID Attendee 


AD Base ProgrammMIng reg Willlam | PMOT de 


图 2.40 ”使 用 TOPOVER 选 项 的 输出 
2. 使 用 选项 LRECL 和 在 INFILE 中 使 用 选项 PAD 


选项 LRECL 为 系统 选项 指定 用 于 读 写 外 部 文件 的 默认 人 逻辑 记录 长 度 。LRECL 指 定 逻 辑 记录 的 长 度 为 1 ( 字 节 ) 或 1024 (k 字 节 ) 的 倍数 。 例 如 32 表 示 32 字 节 、16k 表 示 16384 字 节 。 该 选项 的 范围 为 
1~32767。 在 SAS 9.4 中 ，LRECL 系 统 选项 默认 值 为 32767， 通 常 不 需要 修改 。 


PAD 和 NOPAD 选 项 控制 SAs 是 否 使 用 空格 对 从 外 部 文件 读 入 的 记录 进行 填充 ， 使 其 达到 选项 L[RECL= 指 定 的 长 度 。 默 认 设置 为 NOPAD。 
当 使 用 PAD 选 项 时 ，SA3s 会 自动 用 空格 填充 从 外 部 文件 中 读 入 的 记录 长 度 。 


还 是 以 上 面 的 comments.dat 文 件 为 例 。 











Action brought Community Plant Variety Office Action brought Community Plant Variety 

Office Parties Applicants 

Commission Regulation September 1995 concerning the second list of priority substances 
as foreseen under Council Regulation 

Commission Regulation establishing the standard import values for determining the 
entry price of certain fruit and vegetables Commission Regulation (EC) No 




































































下 面 在 INFILE 语 句 中 使 用 PAD 选 项 ， 代 码 如 下 : 


data saslib.comments; 
infile extfiles (Comments) padgd; 
input Text $500.; 

















run; 
proc print data=saslib.comments noobs; 
run; 








PRINT 过 程 打 印 的 数据 集 内 容 如 图 2.41 所 示 。DATA 步 正确 读 入 了 文件 中 的 所 有 评论 。 


Text 
Action brought Community Plant Variety Qffice Action brought Community Plant Variety Office Panies Applicants 
Commission Regulation September 1995 conceming the second list of Priority substances as foreseen under Coumcil Regulation 


Commission Regulation establishing the standard import values for determining the entry price of certain fruit and vegetables Commission Regulation (EC) No 
图 2.41 在 INFILE 语 名 中 使 用 PAD 选 项 
3. 使 用 INPUT 语 句 的 行 保 持 符 和 行 控制 符 


在 一 个 DATA 步 中 可 有 多 个 INPUT 语 句 。 默 认 情况 下 ， 当 执行 到 INPUT 语 句 时 ， 程 序 会 自动 将 下 一 条 数据 记录 放 入 输入 缓冲 区 ， 并 且 ， 每 次 进 代 完成 后 SAs 会 返回 DATA 步 的 开始 处 ， 同 时 ， 输 入 缓冲 区 
中 的 数据 会 自动 清除 。 可 以 在 INPUT 语 句 中 使 用 行 保 持 符 和 行 指针 控制 符 改 变 这 种 行为 模式 。 


(1) 行 保持 符 


如 果 在 INPT 语 句 的 结束 处 指定 单个 @ 的 行 保持 符 (Line-hold Specifier) ， 输 入 缓冲 区 的 数据 则 会 保持 住 ， 当 前 迭代 中 的 下 一 条 INPUT 语 句 可 以 继续 使 用 。SAS 会 维护 列 控制 指针 在 输入 缓冲 区 中 的 位 
置 。 但 是 ， 当 程序 返回 DATA 步 开始 处 执行 时 ， 输 入 缓冲 区 中 的 数据 会 被 释放 。 


在 INPUT 语 句 的 结束 处 使 用 有 两 个 @ 的 行 保持 符 (形式 为 @@) 时 ， 输 入 缓冲 区 中 的 数据 会 保持 住 ， 直 到 读 到 数据 记录 的 结尾 内 容 为 止 。 这 样 ， 程 序 在 执行 INPUT 语 句 时 就 不 会 自动 将 下 一 条 数据 记录 
读 入 到 输入 缓冲 区 中 ， 同 时 ， 程 序 返 回 DATA 步 的 开始 处 继续 执行 时 ， 输 入 缓冲 区 的 数据 也 不 会 释放 。 但 是 SAs 会 维持 指针 在 当前 记录 中 的 位 置 ， 这 样 ， 程 序 就 能 够 读 取 记 录 中 的 每 个 值 了 。 


(2) 行 指针 控制 符 
在 INPUT 语 句 中 还 可 使 用 行 指针 控制 符 / 和 #n。 
行 指 针 控 制 符 /会 强制 读 入 下 一 条 记录 到 输入 缓 站 区 ， 并 将 列 指针 放 入 该 行 记录 的 开始 处 。 该 行 指针 控制 符 常用 于 跳 过 原始 数据 记录 中 的 数据 值 。 


#n 会 将 当前 指针 移 至 多 行 输入 缓冲 区 的 对 应 行 。 当 INPUT 语 句 中 出 现行 指针 控制 符 #n 时 ， 编 译 程序 会 创建 一 个 多 行 输入 缓冲 区 ， 输 入 缓冲 区 的 行 数 等 于 INPUT 语 句 中 出 现 的 最 大 n 值 。 这 样 ， 执 行 时 程 
序 可 以 一 次 读 入 多 行 数据 到 输入 缓冲 区 。 通 过 这 种 方式 ，INPUT 语 句 可 以 以 任意 顺序 读 入 数据 值 。 


下 面 通过 几 个 示例 来 讲解 行 保持 符 @ 和 @@， 以 及 行 指针 控制 符 / 和 #n 的 使 用 方式 。 
(3) 创建 一 个 观测 前 测试 条 件 


在 只 需 读 入 输入 文件 中 的 部 分 满足 条 件 的 数据 时 ， 可 能 需要 先 读 入 部 分 变量 值 ， 判 断 这 些 变量 值 是 否 满足 某 种 条 件 。 如 果 满 足 ， 继 续 读 入 当前 缓冲 区 中 的 其 他 数据 值 。 如 果 使 用 了 默认 INPUT 语 句 ， 会 
在 第 二 次 执行 INPUT 语 句 时 将 下 一 条 记录 读 入 输入 缓冲 区 ， 之 前 输入 缓冲 区 中 的 数据 则 会 被 冲 掉 。 这 时 可 以 使 用 行 保持 符 @ 将 该 记录 保持 在 输入 缓冲 区 中 ， 第 二 次 执行 INPUT 语 句 时 程序 不 会 重新 读 入 新 的 
数据 记录 ， 而 是 直接 使 用 当前 输入 缓冲 区 中 的 数据 。 


原始 数据 文件 Sales.dat 的 内 容 如 下 ， 每 条 记录 中 包含 员工 ID、 部 门 、 销 售 额 和 上 次 修改 时 间 等 信息 ， 现 在 要 求 仅 读 入 部 门 TSG 的 员工 并 创建 数据 集 。 





~ 


ET001 TSG $10000 O01JAN2012 
EDOO2 $12000 O01FEB2012 
ET004 TSG $5000 02MAR2012 
EC002 CSG $23000 01APR2012 
ED004 QSG 01AUG2012 
































下 面 的 DATA 步 创建 仪 包含 部 门 TSG 员 工 的 数据 集 ; 
“第 一 条 INPUT 语 名 读 入 输入 数据 的 第 7~9 列 到 Dept 变 量 中 ， 并 使 用 @ 行 保持 符 告 诉 SAS 将 输入 记录 保持 在 缓冲 区 。 
.IF 语句 判断 变量 Dept 的 值 是 否 为 TSG。 如 果 不 是 ， 程 序 返回 DATA 步 的 开始 处 进行 下 一 个 和 迭代 ; 如 果 是 ， 执 行 该 次 迭代 的 下 一 条 语句 。 


. 第 二 条 INPUT 语 名 从 输入 缓冲 区 中 按 列 读 入 和 格式 化 读 入 其 他 变量 值 。 代 码 如 下 : 





data saslib.sales; 
infile extfiles (sales); 
input Dept $7-9 @; 
if Dept="'TSG'} 
input Emp ID $1-5 +5 Sales comma6. Q22 Date date9.; 









































run; 
proc print data=saslib.sales noobs; 
run; 


PRINT 过 程 打 印 的 数据 集 的 内 容 如 图 2.42 所 示 。 可 以 看 到 ， 数 据 集中 只 包含 部 门 (Dept) 为 TSG 的 观测 。 
p p_1D : 


IS | EIUUS 3UUU 13U0D4 


图 2.42 ” 仅 包 含 部 门 TSG 的 员工 


(4) 读 单 条 记录 创建 多 个 观测 


当 原 始 数据 文件 的 一 条 记录 中 存在 要 创建 的 数据 集 的 多 个 观测 时 ， 应 在 INPUT 语 句 中 使 用 两 个 行 保持 符 @@， 这 样 ， 程 序 执行 到 下 一 个 INPUT 语 句 ， 甚 至 下 一 个 迭代 时 ， 都 不 释放 输入 缓冲 区 中 的 记 
INPUT 语 句 会 继续 从 输入 缓冲 区 中 读 取 数 据 值 ， 直 到 INPUT 读 完 缓冲 区 中 所 有 的 数据 值 为 止 。 


数据 文件 inventory2.dat 的 内 容 如 下 ， 每 行 包含 两 种 商品 的 信息 。 


POO1IR 12 125.00 P003T 34 40.00 
P301M 23 500.00 PCO2M 12 100.00 








这 时 使 用 @@ 行 保持 符 将 记录 一 直 保持 在 输入 缓冲 区 ， 直 到 缓冲 区 中 的 所 有 数据 值 都 被 读 了 到。 代码 如 下 : 








data saslib.Inventory; 
infile extfiles (inventory2); 
input Product ID $ Instock Price Q@@; 





























ELUN? 
proc print data=saslib.Inventory noobs; 
run; 








PRINT 过 程 打 印 的 数据 集 如 图 2.43 所 示 。 可 以 看 到 ， 所 有 4 种 商品 信息 都 读 入 了 数据 集中 。 


Product ID Instock Pnce 
PUU1R 12 125 
P003T 40 
P33U1NM 4 IUD 





POU2M 12 100 


图 2.43 ”4 种 商品 信息 都 读 入 数据 集中 
(5) 从 多 条 记录 中 创建 一 个 观测 
有 时 一 个 客户 的 联系 信息 ， 或 者 一 种 商品 的 属性 信息 会 分 布 在 多 个 行 中 ， 而 我 们 只 关心 部 分 数据 行 的 信息 ， 这 时 可 以 使 用 单独 的 空 INPUT 语 句 或 / 行 指针 控制 符 来 跳 过 不 关心 的 行 。 


参考 如 下 原始 数据 文件 Customer3.dat 的 内 容 。 这 里 打算 将 同一 个 联系 人 的 多 行 信息 读 入 为 数据 集 的 一 条 观测 ， 但 是 不 包含 街道 或 邮箱 信息 ( 即 每 组 信息 的 第 二 行 ) 。 
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方法 1: 使 用 多 个 INPUT 语 句 。 


此 方法 在 一 个 DATA 步 中 使 用 多 个 INPUT 语 句 ， 每 个 INPUT 语 句 读 入 新 行 到 输入 缓冲 区 ， 并 从 输入 缓冲 区 中 读 入 指定 变量 值 到 PDV。 当 DATA 步 结束 时 ， 将 PDV 中 的 变量 值 写 入 数据 集 。 代 码 如 下 : 


data saslib.Customer; 
infile extfiles (Customer3) truncover; 
input Name $20.; 

















input Clty $203} 
t State $2.; 





run; 
proc print data=saslib.Customer noobs; 
run; 








在 上 述 代码 的 执行 过 程 中 : 
` 第 一 个 INPUT 语 句 读 入 第 一 行 ， 并 将 其 内 容 赋 值 给 PDV 中 交 量 Name。 
` 第 二 个 INPUT 语 和 句 读 入 第 二 行 。 


“第 三 个 INPUT 语 句 读 入 第 三 行 ， 并 将 其 内 容 赋值 给 PDV 中 变量 City。 








第 四 个 INPUT 语 多 读 入 第 四 行 ， 并 将 其 内 容 赋值 给 PDV 中 变量 State。 


DATA 步 结束 时 ，PDV 中 的 变量 写 入 数据 集 。 同 样 ， 在 下 一 个 迭代 中 将 第 五 行 、 第 七 行 、 第 八 行 数 据 赋值 给 PDV 中 的 变量 Name、City 和 state， 然 后 写 入 SAs 数 据 集 。PRINT 过 程 打印 的 数据 集 如 图 2.44 
所 示 。 





Name Clty State 
reg Willlam | San Francisco | CA 
EMIly Cooker New York NY 
JImImY Cruze | Cary NC 


图 2.44 将 多 行 信息 读 入 为 一 条 观测 
方法 2: 使 用 / 行 指针 控制 符 。 


也 可 以 使 用 / 行 控制 符 ， 强 制 读 入 新 行 到 输入 缓冲 区 ， 并 赋值 给 变量 。 代 码 如 下 : 








data saslib.Customer; 
infile extfiles (customer3) truncover; 
input Name $20. / / City $20. / State $2.; 

















run; 
proc print data=saslib.Customer noobs; 
run; 








在 上 述 代码 的 执行 过 程 中 : 

. INPUT 语 和 句 读 入 第 一 行 ， 并 赋值 给 PDV 中 的 变量 Name。 

“ // 强 制 依次 读 入 两 行 ， 即 第 二 行 和 第 三 行 ， 第 三 行 的 值 会 覆盖 第 二 行 ， 并 赋值 给 PDV 中 的 变量 City。 
“ / 读 入 第 四 行 ， 赋 值 给 PDV 中 的 变量 State。 


DATA 步 结束 时 ， 将 PDV 中 的 变量 写 入 数据 集 。 同 样 ， 在 下 一 个 迭代 中 ， 将 第 五 行 、 第 七 行 、 第 八 行 的 数据 赋值 给 PDV 中 的 变量 Name、City 和 state， 然 后 写 入 SAs 数 据 集 。PRINT 过 程 打 印 的 数据 集 
如 图 2.45 所 示 。 


Name City State 
Greg William San Francisco | CA 
Emily Cooker New york NY 
Jimmy Cruze | Cary NC 


图 2.45 使 用 / 行 指 针 控 制 符 
方法 3: 使 用 #n 行 指针 控制 符 。 


还 可 以 使 用 #n 行 指针 控制 符 ， 直 接 在 多 行 的 输入 缓冲 区 中 移动 行 指针 。 代 码 如 下 : 





data saslib.Customer; 
infile extfiles (customer3) truncover; 
input #3 City $20. #1 Name $20. #4 State $2.; 




















run; 
proc print data=saslib.Customer noobs; 





run; 


DATA 步 在 编译 时 会 创建 一 个 4 行 的 输入 缓冲 区 ， 因 为 n 的 最 大 值 为 4。 执 行 过 程 中 : 
.INPUT 语句 一 次 读 入 4 行 记 录 到 输入 缓冲 区 。 
#3 将 行 输入 指针 移动 到 输入 缓冲 区 的 第 三 行 ， 将 数据 值 读 入 到 PDV 中 的 变量 City。 
. #1 将 行 输 入 指针 移动 到 第 一 行 ， 将 数据 值 读 入 到 PDV 中 的 变量 Name。 
. #4 将 行 输入 指针 移动 到 第 四 行 ， 将 数据 值 读 入 到 PDV 中 的 变量 State。 


DATA 步 结束 时 ，PDV 中 的 变量 写 入 数据 集 。 同 样 ， 在 下 一 个 迭代 中 ，INPUT 语 句 会 将 第 五 行 至 第 八 行 数据 一 次 读 入 到 输入 缓冲 区 。 再 从 输入 缓冲 区 的 第 三 行 、 第 一 行 和 第 四 行 中 分 别 读 入 数据 赋值 给 
PDV 中 的 变量 City、Name 和 State， 然 后 写 入 SAS 数 据 集 。 


PRINT 语 句 打印 的 数据 集 内 容 如 图 2.46 所 示 。 这 里 的 观测 数 和 数据 值 相 同 。 


City Name >tate 
san Francisco Greg Willlam | CA 
New york EmMily Cooker NY 
Cary Jimmy Cruze NG 


图 2.46 ”使 用 #n 行 指针 控制 符 
该 数据 集 与 前 两 个 数据 集 的 变量 顺序 不 同 ， 是 因为 在 这 3 个 示例 中 的 变量 在 DATA 步 中 出 现 的 顺序 不 同 。 


全 注意 本 例 为 了 说 明 使 用 #n 行 控制 符 可 以 随意 在 输入 缓冲 区 的 行 之 间 移动 ， 特 意 指 定 读 取 顺序 为 第 三 行 、 第 一 行 和 第 四 行 。 若 INPUT 语 句 按 如 下 形式 编写 ， 则 所 生成 数据 集 的 变量 顺序 也 与 前 两 种 方 
一样: 


input#1Name$20.#3City$20.#4State$2.; 


这 3 种 方法 都 要 求 单条 观测 在 原始 数据 文件 中 占用 的 行 数 一 样 。 例 如 ， 在 本 例 中 都 是 4 行 ， 而 且 要 读 取 的 同类 别 信息 必须 出 现在 相同 的 相对 位 置 上 ， 例 如 在 每 4 行 记录 中 ， 第 一 行 是 客户 姓名 、 第 三 行 是 
所 在 城市 、 第 四 行 是 所 在 州 。 


2.3 ”通过 IMPORT 过 程 读 取 外 部 文件 数据 


除了 可 以 通过 DATA 步 读 取 外 部 文本 文件 数据 外 ，SAS 还 提供 了 IMPORT 过 程 ， 通 过 它 可 以 从 外 部 数据 源 读 取 数 据 并 写 入 SAS 数 据 集 中 。 而 且 ， 如 果 使 用 SAS/ACCESS to PC Files，IMPORT 过 程 除 了 可 
以 导入 带 分 隔 符 的 文件 外 ， 还 可 以 读 取 PC 文 件 中 的 外 部 数据 ， 包 括 Microsoft Access 数 据 库 文件 、Miscrosft Excel 工 作 短 、Lotus 1-2-3 文 件 、dBase 文 件 、JMP 文 件 、SPSS 文 件 、Stata 文 件 、Paradox 
等 。SAS 变 量 的 定义 根据 输入 记录 确定 。 


在 SAS 窗 口 环境 选择 菜单 “文件 ” 守 “ 导 入 数据 ”， 可 以 打开 “导入 ”窗口 ， 通 过 “导入 向 导 ” 可 读 取 上 述 类 型 的 数据 。 导 入 过 程 所 生成 的 SAS 语 句 也 可 以 保存 起 来 供 以 后 使 用 。 


对 应 于 IMPORT 过 程 和 SAS 窗 口 环境 的 IMPORT 向 导 ，SAS 还 提供 了 EXPORT 过 程 和 EXPORT 向 导 (选择 菜单 “文件 ”二 “导出 数据 ”) ， 以 便 将 SAS 数 据 集中 的 数据 导出 到 上 述 类 型 的 文件 。 对 此 这 里 
不 做 讲解 ， 有 兴趣 的 读者 可 以 通过 SASs 帮 助 文档 学 习 。 


IMPORT 过 程 的 导入 数据 的 基本 形式 如 下 : 





PROC IMPORT 

DATAFILE= 文 件 名 | 文件 引用 | DATATABLE= 表 名 
DBMS= 数 据 源 标识 符 
OUT= 数 据 集 名 称 ， 
































RUN; 





其 中 : 
: DATARFILE= 指 定 输入 文件 的 完整 路 径 和 文件 名 ， 或 文件 引用 。 文 件 引 用 通常 通过 FILENAME 语 名 指定 。 
DATATABLE= 指 定 输入 DBMS 表 名 。 数 据 源 可 以 通过 DATAFILE 或 DATATABIE 指 定 。 


. DBMS= 指 定 要 导入 的 数据 类 型 。SAS 支 持 多 种 数据 类 型 ， 例 如 CSV、TAB、ACCESS、XISX、XILS、EXCEL、JMP、DTA、SPASS 等 。 其 中 CSV、TAB 表 示 要 导入 的 数据 文件 分 别 由 运 号 和 tab 符 号 分 


隔 ，ACCESS 表 示 使 用 LIBNAME 语 名 的 Misctosoft Access 表 ，XLSX 表 示 Micorsoft Excel 2007 或 2010 的 工作 簿 ， 等 等 。 可 参考 SAS 帮 助 文档 了 解 关 于 导入 数据 类 型 和 各 类 型 的 详细 信息 。 
OUT= 指 定 输出 的 数据 集 名 称 。 该 语句 后 面 还 可 以 添加 数据 集 选 项 。 
下 面 给 出 了 几 个 例子 ， 分 别 讲 解 通过 IMPORT 过 程 导 入 CSV 文 件 、Microsoft Excel 工 作 秒 和 Microsoft Access 数 据 库 文件 中 的 数据 。 
1. 读 取 CSV 文 件 


外 部 文件 contact.csv 的 内 容 如 下 ， 文 件 第 一 行 给 出 了 各 个 数据 行 中 数据 值 字段 的 名 称 ， 后 面 的 各 行 则 为 对 应 的 字段 值 。 





Name, Age, Position,Marriage,Address 

Greg William, 42,Manager,Single,"14 Bridge St. San Francisco, CA" 
Emily Cooker,33,Sales,Married,"42 Rue Marston" 

Henry Cooper,,Office,Married,"52 Rue Marston Paris" 

Jimmy Cruze,34,Manager,Single,"Box 100 Cary, NC" 





























使 用 IMPORT 过 程 导入 该 文件 的 代码 如 下 : 





proc import out=saslib.contact 
datafile="c:\sas\data\contact .csv" 
dbms=csv replace; 








getnames=yes; 
datarow=2; 
run; 
proc print data=saslib.contact noobs; 
run; 





所 生成 的 数据 集 为 saslib 逻 辑 库 中 的 contact 数 据 集 ， 数 据 文件 为 c: \sas\data\contact.csv， 选 项 DBMS= 指 定数 据 库 类 型 为 csv。 其 中 文件 扩展 名 可 以 省 略 ，SAS 会 根据 DBMS= 选 项 指定 的 据 库 类 型 自 
动 加 上 。 


代码 中 还 使 用 了 REPLACE 选 项 ， 表 示 当 OUT= 指 定 的 数据 集 存在 时 履 盖 该 数据 集 。GETNAMES 语 句 表 示 是 否 从 该 文件 中 的 第 一 行 读 取 变量 值 ， 默 认为 YES， 表 示 读 取 ; 值 为 NO 表示 不 读 取 ， 这 时 
IMPORT 过 程 会 自动 产生 名 为 F1、F2、F3 等 的 变量 。 


DATAROW= 语 句 也 会 经 常 使 用 ， 用 于 指定 IMPORT 语句 开始 读数 据 的 行 号 。 默 认 情况 下 ， 当 GETNAMES=NO 时 ，DATAROW=1,， 当 GETNAMES=YES 时 ，DATAROW=2。 该 选项 用 于 跳 过 数据 文件 
开始 处 的 多 行内 容 。 


PRINT 过 程 打印 的 数据 集 内 容 如 图 2.47 所 示 。 
Name Age Position Manage Address 

Greg Wiliam | 42 | Manager | Single |14 Bridge St. San Francisco, CA 
Emily CooKer 33 Sales Mamed -42 Rue Marston 

Henry Cooper , | Office Mamed 52 Rue Marston Pans 

Jimmy Cruze 34 Manager Single Box 100 Cary, NC 


图 2.47 PRINT 过 程 打 印 的 数据 集 
2. 读 取 Miscosoft Excel 工 作 敌 


IMPORT 过 程 可 以 导入 Microsoft Excel 工 作 簿 中 的 数据 。 在 Excel 2007 中 文件 的 工作 筹 pag 的 内 容 如 图 2.48 所 示 。 在 该 图 中 ， 共 包含 了 A~E 共 5 列 ， 第 一 行为 字段 名 称 ， 从 第 二 行 开 始 为 数据 值 。 


B C | DD 
Name AEe Position Mariage Address 
Greg Willlam 42 Manager Single 14 Bridge St. San Francisco, 


Emily Cooker 33 Sales Married 42 Rue Marston 
Henry Cooper Office Married 52 Rue Marston Parls 
Jimmy Cruze 34 Manager Single Box 100 Cary NC 


图 2.48 ”工作 簿 pag 的 内 容 





下 面 使 用 IMPORT 过 程 读 入 该 工作 簿 的 指定 区 域 。 


proc import out=saslib.contact 
datafile="c:\sas\data\contact .XLSX" 
dbms=xlsx replace; 
range="'pags$Al :ES5'n; 

run; 

proe print data=saslib,.contact noobs; 

run; 

















IMPORT 过 程 中 可 以 使 用 RANGE= 语 句 指定 所 导入 的 区 域 。 在 使 用 IMPORT 过 程 处 理工 作 短 的 数据 之 前 ， 可 先 通 过 Microsoft Excel 的 “名 称 管理 器 ”定义 要 处 理 的 数据 的 区 域 ， 在 IMPORT 过 程 中 ,使 
用 RANGE= 语 句 指定 该 数据 区 域 的 名 称 ， 或 直接 在 RANGE= 语 句 中 指定 数据 区 域 。 本 例 中 为 直接 指定 ， 区 域 为 工作 短 pag 中 从 A1 到 E5 的 和 矩形 区 域 。PRINT 过 程 打 印 的 数据 集 的 内 容 如 图 2.49 所 示 。 


Name Age Position Mariage Address 

(Creg Vlllam di Manadger | single 14 Bindge st. San Franciseo, CA 
EmMmily CooKker | 343 Sales Mamed 42 Rue Marston 

Hernry Cooper . | Offiee Marmed S52 Rue Marston Pans 

Jimmy Cruze 3 Manager Sinagle Box 100 Cary, NC 


图 2.49 ”从 A1 到 EE5 的 区 域 
加 注意 1) DBMS=XLSX 可 以 处 理 Microsoft Excel 2007 或 Mictosoft Excel 2010 的 工作 簿 。 对 于 其 他 更 早 版 本 的 Microsoft Excel 生 成 的 工作 簿 ， 需 使 用 其 他 类 型 ,例如 XLS、EXCEL4、EXCEL5。 
2) 还 可 使 用 EXCEL 数 据 库 类 型 EXELCS ， 并 通过 SAS PC 文件 服务 器 来 读 取 相 应 版 本 的 Excel 工 作 簿 。 
3) 也 可 以 直接 使 用 LIBNAME 语 句 ， 通 过 SAS/ACCESS EXCEL3 引 党 来 访问 Excel 工 作 簿 。 
具体 请 参考 SAS 帮 助 文档 。 
通过 DBMS=XLS 或 DBMS=XLSX 来 读 取 Excel 文 件 中 的 数据 还 有 一 个 好 处 ， 即 可 以 直接 在 UNIX 环 境 下 读 取 Excel 工 作 簿 中 的 数据 ， 不 需要 访问 PC 文件 服务 器 。 
3. 读 取 Microsoft Access 数 据 库 文件 


Microsoft Access 是 一 个 桌面 关系 型 数据 库 系 统 ， 通 常 使 用 Microsoft ACE 引擎 (.accdb 文 件 格 式 ) 或 Microsoft Jet 引 擎 (.mdb 文 件 格式 ) 。 在 IMPORT 过 程 中 指定 DBMS 为 ACCESS，SAS 可 以 读 取 
在 Microsoft Access 97、Microsoft Access 2000、Microsoft Access 2003、Microsoft Access 2007 和 Microsoft Access 2010 中 的 文件 。 例 如 : 





proc import out=saslib.customer 
datatable='customer' 

dbms=access replace; 
database="c:\sas\data\customer.accdb"; 
RUN; 














在 IMPORT 过 程 中 使 用 access 数 据 库 类 型 ， 实 际 使 用 的 是 SAS/ACCESS LIBNAME3 引 擎 。 也 可 以 直接 使 用 LIBNAME 语 句 通 过 SAS/ACCESS ACCESS 引擎 来 访问 Microsoft Access 数 据 库 文 件 。 这 里 不 做 
介绍 ， 有 兴趣 的 读者 可 参考 SAS 帮 助 获 取 更 新 信息 。 


2.4 ”访问 天 系 型 数据 库 系统 中 的 数据 


SAs 提 供 了 一 组 访问 关系 型 数据 库 的 SAs/ACCESs 接 口 ， 每 种 接口 有 单独 的 许可 。 使 用 这 些 接口 ，SAs 可 以 和 其 他 厂商 数据 库 中 的 数据 交互 。SAS 所 支持 的 关系 型 数据 库 如 表 2.3 所 示 。 


表 2.3 SAS 支 持 的 关系 型 数据 库 





Aster Microsoft SQL Server PostregSQL 


UNIX 环境 和 PC 主机 下 的 DB2 Sybase 
z/OS 环境 下 的 DB2 Sybase IQ 
Greenplum SAP HANA 
Hadoop Teradata 
Informatix Vertica 


除了 上 述 关系 型 数据 库 外 ，SAS 还 提供 了 对 应 的 SAS/ACCESS 引 擎 访问 ERP、SPSS 等 系统 软件 中 的 数据 。 这 些 内 容 本 书 不 做 介绍 ， 读 者 如 果 有 需要 可 以 参考 SAS 帮 助 文档 学 习 。 
SAS/ACCESS 接 口 引 擎 提供 以 下 方法 访问 关系 型 DBMS 中 的 数据 : 

` 使 用 LIBNAME 语 句 将 SAS 逻 辑 库 引用 名 定义 到 DBMS 对 象 ， 例 如 schema 和 数据 库 。 

` 使 用 SQL 转交 (pass-through) 功能 。 通 过 该 功能 ， 在 SAS 会 话 中 可 以 使 用 原生 SQL 语 法 与 数据 源 交互 ， 这 些 SQL 语 和 句 会 直接 交 给 数据 源 处 理 。 


还 可 以 使 用 ACCESS 过 程 来 访问 数据 库 系 统 ， 但 是 SAS 不 推荐 使 用 这 种 方式 。SAS 推 荐 使 用 更 直接 的 方式 访问 DBMS 数 据 ， 如 上 面 提 到 | 的 两 种 。 所 以 ， 本 书 不 介绍 ACCESS 过 程 ， 感 兴趣 的 读者 可 以 通过 
SAS 帮 助 文档 了 解 。 


1. 通 过 LIBNAME 语 句 访问 


本 章 第 一 节 介绍 SAS 逻 辑 库 时 ， 已 经 提 到 了 接口 逻辑 库 引擎 的 概念 。 接 口 逻辑 库 是 通过 SAS/ 人 /ACCESS 接口 软件 来 访问 的 其 他 软件 ， 例 如 数据 库 管理 系统 、 格 式 化 的 文件 等 。 通 过 LIBNAME 语 句 指定 接口 
逻辑 库 的 引用 名 后 ， 就 可 以 像 访问 SAS 原 生 数 据 集 一 样 通过 二 级 引用 来 访问 数据 库 中 的 表 了 。 这 时 数据 库 中 的 表 也 称 为 接口 数据 集 。 这 里 简单 介绍 SAS/ACCESS 用 LIBNAME 语 句 访问 关系 型 数据 库 的 一 般 用 


法 ， 更 详细 的 用 法 请 查看 SAs 帮 助 文档 。 


加 注意 ”大 多 数 情况 下 ， 接 口 数 据 集 的 使 用 与 原生 数据 集 没 有 区 别 ， 但 仍然 会 有 些 限 制 。 例 如 在 DATA 步 的 DATA 语 名 和 SET 语句 中 不 能 指定 同一 个 接口 数据 集 ， 否 则 SAS 会 报错 


LIBNAME 语 句 指定 到 DBMS 对 象 的 逻辑 库 引 用 名 的 基本 形式 如 下 : 

















LIBNAME 逻辑 库 引 用 名 逻辑 库 引 警 访问 连接 选项 ; 



































. 逻 辑 库 引 用 名 为 访问 数据 库 的 还 辑 引用 名 称 ， 在 本 章 第 一 节 介 绍 SAS 逻 辑 库 时 有 详细 介绍 。 
. 逻辑 库 引 擎 由 所 要 访问 的 数据 库 确定 ， 例 如 Oracle 数据 库 的 引擎 为 orfacle，Tetadata 数 据 库 的 引擎 为 teradata，Hadoop 的 引擎 为 hadoop。 
* 访问 连接 选项 提供 连接 信息 并 控制 SAS 如 何 管 理 到 DBMS 链 接 的 时 机 和 并 发 。 不 同 数据 库 ， 连 接 选项 会 不 同 。 例 如 ， 连 接 到 Oracle 数 据 的 连接 选项 为 Userf=、PASSWORD= 和 PATH=。 


下 面 两 条 LIBNAME 语 句 分 解 建立 了 到 Teradata 数 据 库 和 Oracle 数 据 库 的 逻辑 库 引 用 名 。 接 着 ， 就 可 以 使 用 带 逻 辑 库 引 用 名 tdlib 和 oralib 的 二 级 名 称 引 用 数据 库 中 的 表 了 。 





libname tdlib teradata server=tera2650 database=hps user=userl password=passwordl; 
libname oralib oracle path=mypath schema=myschema user=usrl password=passwordl; 








2 通过 PROC SQL 访问 
PROC SQL 为 SAs 软 件 实现 了 结构 化 查询 语句 (Structured Query Language，SQL) 。 关 于 PROC SQL 的 信息 在 本 书 第 6 章 中 会 详细 讲解 ， 这 里 主要 介绍 如 何 通 过 PROC SQL 使 用 SAS/ACCESS 访 问 关 
系 型 数据 库 。 


` 使 用 LIBNAME 语 和 句 指定 接口 逻辑 库 引 用 名 ， 然 后 在 PROC SQL 语 名 中 引用 该 引用 名 查询 、 更 新 或 删除 DBMS 数 据 。 
` 将 LIBNAME 信 息 谱 入 PROC SQL 视 图 中 ， 在 每 次 处 理 该 SQL 视 图 时 会 自动 连接 到 DBMS。 
` 使 用 PROC SQL 的 扩展 功能 ， 将 DBMS 特 定 的 SQL 语句 直接 发 送 到 DBMS ， 该 功能 叫 作 SQL 转交 (pass-through) 功能 。 


前 两 种 方法 使 用 的 仍然 是 SAS/ACCESS LIBNAME 引 擎 ， 引 用 数据 库 中 表 的 形式 与 引用 SASs 原 生 数 据 集 相同 ， 这 里 不 做 介绍 。 作 为 LIBNAME 语 名 的 蔡 代 ，SQL 转 交 功 能 使 用 SAS/ 人 /ACCESS 连接 DBMS ， 
并 将 语句 直接 放 到 DBMS 中 执行 ， 这 样 就 可 以 使 用 DBMS 本 身 的 SQL 语 法 了 。 所 以 ，SQL 转 交 功 能 支持 当前 DBMS 支 持 的 任何 非 ANSI 标 准 的 SQL。 需 要 注意 的 是 ， 不 是 所 有 的 SAS/ACCESS 接 口 都 支持 这 种 


属性 。 


使 用 SQL 转交 功能 的 基本 形式 如 下 : 


PROC SOL; 
CONNECT TO 数据 库 名 称 <AS < (数据库 连接 参数 > ) Sy 

EXECUTE (数据 库 特 定 SQLi 语 句 ) B v 才 据 库 包容 称 | 别 名 ; 

SELECT 列 列表 FROM CONNECTION “To 数据 库 名 称 1 别 台 (数据 库 查 询 ) ， 

DISCONNECT FROM 数 据 库 名 称 | 别 名; 

QUIT; 












































人 









































其 中 : 
-CONNECT 语句 建立 到 DBMS 的 连接 。 数 据 库 名 称 标识 要 连接 的 数据 库 管 理 系统 ; 别名 为 该 连接 指定 别名 ; 数据 库 连 接 参 数 指 定 PROC SQL 连 接 到 DBMS 需 要 的 特定 的 DBMS 参 数 。 
EXECUTE 语句 发 送 DBMS 特 定 的 、 非 查询 SQL 语句 到 DBMS。SAS 会 把 输入 的 内 容 原 封 不 动 地 发 送 到 DBMS。 有 些 DBMS 可 能 是 大 小 写 敏 感 的 ， 需 要 注意 。 


CONNECTION TO 组 件 获取 并 使 用 PROC SQL 查询 或 视图 中 的 DBMS 数 据 。 数 据 库 查询 指定 要 发 送 到 DBMS 上 的 查询 ， 该 查询 可 使 用 对 该 DBMS 有 效 的 任何 DBMS 特定 的 SQL 语句 或 语法 。 同 样 ， 这 些 


查询 对 有 些 DBMS 可 能 是 大 小 写 敏感 的 。 
. DISCONNECT 语 名 终止 与 DBMS 的 连接 。 


各 语句 执行 的 返回 值 和 消息 保存 在 宏 变 量 &sqlxrc 和 &sqlxmsg 中 。 


下 面 的 代码 建立 到 Oracle 数 据 库 的 连接 。 在 CONNECT 语 句 中 ，oracle 为 数据 库 名 称 ，mycon 为 别名 ， 括 号 里 的 内 容 为 数据 库 的 连接 参数 。%put 宏 将 上 一 条 CONNECT 语 句 的 返回 值 和 代码 打印 到 日 志 
窗口 。SELECT 语 句 通过 建立 的 连接 将 表 employees 中 满足 条 件 (hiredate> ='31-DEC-88') 的 行 指定 的 5 列 (empid、lastname、firstname、hiredate、salary) 数据 取出 。 


proc sql; 
Connect to oracle as mycon (user=myusrl 
password=mypwdl1 path="'mysrvil' schema=myshml); 
sput &sgqlxmsg; 
select * 
from connection to mycon 
(select empid, lastname, firstname, 
hiredate, salary 
from employees wher 
hiredqate>='31-DEC-88 ' ) ， 


























sput &sgqlxmsg; 
disconnect from mycon; 
quit; 





PROC SQL 还 可 以 将 上 面 的 查询 存储 为 SQL 视图 或 创建 为 SAs 数 据 集 。 下 面 的 代码 中 查询 条 件 一 样 ， 还 是 将 查询 存储 为 SAs 逻 辑 库 中 的 SQL 视图 ， 这 样 在 下 次 使 用 该 视图 时 就 可 以 自动 从 数据 库 中 获取 数 
据 了 。 


libname samples 'SAS-library'; 
proc sql; 
Connect to oracle as mycon (user=myusrl 
password=mypwdl1 path="'mysrvil' schema="'schml');} 
sput &sgqlxmsg; 
create view samples.hires88 as 
select * 
from connection to mycon 
(select empid, lastname, firstname, 
hiredate, salary 
from employees where 
hiredate>="'31-DEC-88"'); 


























Sput &sgqlxmsg; 
disconnect from mycon; 
quit; 





2.5” SAS 程序 错误 及 处 理 


通常 我 们 所 开发 的 SAS 程 序 ， 很 少 在 第 一 次 提交 时 就 能 够 运行 完成 并 产生 正确 结果 。 程 序 越 长 、 越 复杂 ， 就 越 可 能 出 现 语 法 错误 或 逻辑 错误 。 本 节 介 绍 了 一 些 良 好 的 SAS 编 程 规范 以 减少 程序 错误 ， 同 时 
也 描述 了 几 种 常见 的 错误 及 错误 发 生 后 的 处 理 方法 。 


2.5.1 ”良好 的 SAS 编 程 风 格 

在 开发 SAS 程 序 的 过 程 中 ， 遵 循 下 面 几 条 规则 可 以 减 小 程序 出 错 的 几率 ， 并 有 助 于 发 现 错误 。 
(1) 提高 程序 的 易 读 性 

一 个 简单 的 方式 是 在 开发 程序 时 保持 代码 的 整洁 和 一 至。 易 读 的 程序 会 更 易于 调试 ， 长 期 来 看 会 节省 时 间 。 在 编写 SAS 程 序 时 可 遵循 如 下 建议 以 提高 程序 的 易 读 性 : 
* 每 行 一 条 SAS 语 和 句 。SAS 允 许 在 一 行 中 写 多 个 SAS 语 句 ， 这 样 会 节省 代码 空间 ， 但 是 这 些 空间 会 以 损失 程序 的 易 读 性 为 代价 。 
程序 的 不 同 部 分 使 用 相应 的 缩 进 。 缩 进 DATA 步 和 PROC 步 中 的 所 有 语句 ， 这 种 方式 会 很 容易 得 知 程序 中 有 多 少 个 DATA 步 和 PROC 步 ， 并 且 知 道 那 些 语句 属于 哪个 过 程 步 。 
. 代码 中 引用 的 所 有 SAS 文 件 都 使 用 二 级 名 称 ， 例 如 wotk.customer， 即 使 该 SAS 文 件 存储 在 WORK 临 时 逻辑 库 或 USER 逻 辑 库 中 也 应 如 此 。 
` 使 用 RUN 或 QUIT 语 和 句 显 式 地 表明 DATA 步 或 PROC 步 结束 。 虽 然 SAS 会 在 遇 到 下 一 个 DATA 步 或 PROC 步 时 自动 结束 当前 过 程 步 ,但 是 RUN 或 QUIT 语 和 句 会 让 程序 块 的 逻辑 更 清楚 。 
` 使 用 注释 说 明 程序 代码 段 。 给 程序 添加 注释 可 能 会 花 一 些 额 外 的 时 间 ， 但 是 很 多 时 候 注 释 很 重要 ， 尤 其 是 当 其 他 人 查看 或 使 用 代码 时 。 
(2) 测试 程序 的 每 个 部 分 

在 开始 写 下 一 部 分 的 代码 之 前 ， 先 测试 前 面 已 经 完成 的 代码 。 保 证 已 经 完成 的 代码 运行 正确 会 极 大 地 提高 开发 效率 。 


如 果 是 从 外 部 数据 文件 读 取 数据 到 SAS 数 据 集 ， 则 使 用 PROC PRINT 打 EDSAS 数 据 集 或 数据 集 的 部 分 数据 ， 以 保证 该 数据 集 被 正确 生成 。 有 时， 在 日 志 中 可 能 没有 错误 或 可 疑 的 提示 ,但 所 生成 的 数据 集 
却 是 不 正确 的 。 这 是 因为 所 开发 的 代码 可 能 并 没有 如 预期 的 那样 读 取 数 据 ， 或 原始 数据 本 身 人 存在 某 些 在 开发 代码 时 没有 意识 到 的 问题 。 对 此 ， 好 的 习惯 是 ， 对 程序 创建 的 所 有 SAs 数 据 集 都 至 少 要 打印 一 


次 ,以 进行 检查 。 
(3) 正式 运行 程序 前 使 用 子 数据 集 测试 程序 
有 了 时， 使 用 全 部 数据 测试 程序 是 不 现实 的 。 如 果 数 据 文 件 特别 大 ， 测 试 所 有 的 数据 会 很 费时 ， 这 时 可 以 使 用 数据 的 子 集 来 进行 测试 。 


如 果 是 从 文件 中 读 取 数 据 ， 可 以 在 INFILE 语 句 中 使 用 OBS= 告 诉 SAs 读 取 文 件 中 的 前 多 少 行 ， 例 如 前 50、 前 100 行 等 ， 只 要 能 代表 要 读 取 的 数据 就 行 。 下 面 的 代码 仅仅 读 取 文 件 的 前 100 行 。 





infile 'customer.dat' obs=100 


还 可 以 使 用 选项 FIRSTOBS= 指 定 从 文件 的 中 间 部 分 开始 读 取 数据 。 例 如 ， 下 面 的 语句 读 取 customer.dat 文 件 的 第 101 行 到 第 200 行 。 





infile '‘'customer.dat' firstobs=101 obs=200; 





同样 ， 选 项 FIRSTOBS= 和 OBS= 也 可 以 用 于 在 SET 语 句 中 读 取 该 数据 集中 对 应 的 观测 。 下 面 的 代码 会 读 取 数 据 集 saslib.customer 中 的 第 101~200 个 观测 。 





set saslib.customer (firstobs=101 obs=200) ， 


关于 SET 语 句 及 数据 集 选项 ， 本 书 下 一 章 会 详细 介绍 。 
(4) 使 用 语法 敏感 的 编辑 器 


在 Windows 操 作 系统 下 ， 增 强 型 编辑 器 (Enhanced Editor) 是 默认 的 编辑 器 ， 在 其 他 操作 系统 下 ， 程 序 编辑 器 (Program Editor) 是 默认 编辑 器 。 这 两 种 编辑 器 都 会 对 代码 的 不 同 部 分 自动 添加 颜 
色 ， 例 如 SAs 关 键 字 是 一 种 颜色 ， 变 量 是 另 一 种 颜色 。 此 外 ， 所 有 引号 中 的 文本 也 是 同样 的 颜色 ， 这 样 我 们 可 以 很 容易 区 分 是 否 存 在 引号 不 匹配 的 情况 。 类 似 地 ， 遗 漏 分 号 也 很 容易 发 现 ， 因 为 遗漏 分 号 可 
能 会 导致 接 下 来 的 代码 颜色 不 正确 。 


2.5.2 ”常见 错误 及 处 理 
SAS 程 序 提交 执行 后 会 在 日 志 窗 口 或 日 志文 件 中 产生 代码 运行 的 信息 。 我 们 可 以 根据 日 志 信 息 确定 什么 时 候 程序 发 生 错 误 ， 并 获取 信息 纠正 错误 。SAS 通 常会 识别 以 下 4 类 错误 : 
. 语法 错误 。 语 法 错误 是 在 SAS 语 句 中 犯 的 错误 ， 包 括 单 词 拼写 错 、 遗 漏 或 无 效 的 标点 符号 、 无 效 的 语句 或 数据 集 选 项 等 。 
- 执行 时 错误 。 当 程序 提交 执行 时 ， 执 行 时 错误 会 让 程序 失败 。 大 多 数 不 严 重 的 执行 时 错误 会 在 SAS 日 志 中 产生 提示 消息 ， 但 是 程序 还 能 继续 运行 。 如 果 是 更 严重 的 错误 ，SAS 会 打印 错误 消息 并 停止 处 
理 。 
. 数据 错误 。 数 据 错 误 是 一 种 执行 时 错误 。 当 SAS 程 序 正在 分 析 的 原始 数据 包含 无 效 值 时 就 会 发 生 数据 错误 。 例 如 ，INPUT 语 句 中 指定 了 数字 变量 ,而 原始 数据 记录 中 的 数据 值 是 字符 。 数 据 错 误 不 会 
引起 程序 停止 ,但 是 会 在 SAS 日 志 中 产生 提示 信息 。 
“ 语义 错误 。 语 义 错误 是 另 一 种 执行 时 错误 ， 当 SAS 语 名 形式 是 正确 的 ， 但 有 些 选项 或 语句 等 的 使 用 方式 无 效 时 会 发 生 。 例 如 ， 函 数 中 指定 的 参数 个 数 错误 、 在 只 有 字符 变量 有 效 的 地 方 使 用 数字 变量 
名 或 使 用 了 没有 赋值 的 逻辑 库 引 用 名 等 。 
SAS 检 测 到 错误 时 ， 通 常会 将 错误 或 检测 到 错误 的 位 置 加 下 划 线 ， 并 显示 一 个 数字 。 每 个 数字 与 一 条 错误 消息 唯一 关联 。 接 着 SASs 进 入 语法 检查 模式 ， 它 会 读 取 剩 下 的 程序 语句 、 检 查 语法 ， 并 在 其 他 错 
误 位 置 加 下 划 线 。 
在 批 处 理 或 非 交 互 式 的 程序 中 ，DATA 步 中 的 错误 会 导致 SAS 对 剩 下 的 程序 一 直 处 于 语法 检查 模式 ， 其 他 任何 创建 外 部 文件 或 SAS 数 据 集 的 DATA 步 或 PROC 步 都 不 会 执行 。 然 而 ， 读 SAS 数 据 集 的 过 程 会 
执行 ， 但 是 读 入 的 观测 数 会 为 0， 而 不 读 SAS 数 据 集 的 过 程 正常 执行 。 通 常 PROC 步 中 的 语法 错误 仪 仪 影响 当前 PROC 步 。 在 该 PROC 步 结束 时 ，SAS 会 将 检测 到 的 每 个 错误 写 入 SAS 日 志 。 


la 于 法 错误 天 


有 些 语法 错误 从 日 志 窗 口中 很 容易 理解 并 改正 ， 有 时 SAS 还 会 自动 纠正 并 提示 警告 信息 ， 例 如 在 图 2.50 中 展示 的 是 关键 字 拼 写 错误 。 关 键 字 INPUT 错 误 拼写 为 INYUT，SAS 给 出 警告 信息 并 将 该 拼 错 的 
词 理解 为 INPUT。 这 样 ， 编 译 会 通过 ， 代 码 也 会 正确 执行 。 但 SAS 并 不 负责 将 代码 中 的 错误 改正 ， 需 要 开发 人 员 自 己 修改 。 


22 data saslib.inventory:; 
23 inuut Product ID 人 Instock Price; 





图 2.50 ”关键 字 拼 写 错 误 


很 多 语法 错误 是 由 于 遗漏 分 号 (; ) 导致 的 ， 根 据 其 在 日 志 窗 口 的 消息 ， 可 能 没 那么 容易 找到 出 错 原因 。 在 下 面 的 代码 中 ，DATA 语 句 指定 了 数据 集 名 称 之 后 遗漏 分 号 (; ) 。 


data saslib.customer 
length Name $20 Address $40; 
infile extfiles (Customer dsd) dsd; 
input Customer ID $ Name $ Address $5; 





























提交 代码 执行 时 ， 因 为 遗漏 分 号 ，SAS 认 为 DATA 语 句 中 没有 结束 ，length 和 Name 都 被 当 作 数 据 集 名 。SAS 无 法 解释 接 下 来 出 现 的 $， 所 以 认为 出 错 。SAS 在 日 志 中 显示 的 信息 如 图 2.51 所 示 。 在 $ 出 现 
的 地 方 加 划 线 ,给 出 期 待 在 这 个 地 方 出 现 的 名 称 或 符号 ， 并 提示 出 错 。 


data saslib .customer 
length Name $28 Address $40s 


2 2 
2 200 


ERROR 22-322: 语法 异 误 ， 期 望 下 列 之 一 : 和 名称， 带 引 号 的 字符 串 ， (sf; _DATA_，_LAST_，_NULL_. 
RROR 296-322: 该 何 号 个 可 识别 ， 将 被 忽略 。 


infile customfl dsd:= 


input Customer ID $ Name $ fddress $; 
run; 


0TE: 由 于 出 错 ，Sas 系统 停止 处 理 凌 。 

ARNING: 十 集 SASLIB CUSTOMER 不 

RNING: 过 yj 后 集 WORK -LENGTH EE 不 生地 

ARNING: 去 WORK .NAME 可 和 不 完整 沪 尖 入 

ARNING: 四 WORK .ADDRESS 月 E 趟 。 廊 

oTE: “DATA 次 句 ”所 用 时 间 (总 处 旨 时间 》: 
守卫 时 间 本 


CPU 日 0.81 





图 2.51 让 汤 分 号 


这 时 需要 通过 在 DATA 语 句 数据 集 名 称 之 后 添加 分 号 (; ) 来 改正 该 段 代码 。 


2. 数 据 错 误 


一 /一 


在 下 面 的 程序 中 ，INPUT 语 句 使 用 列表 方式 读 取 数 据 值 。 要 读 取 的 最 后 一 个 变量 为 数值 型 变量 ， 但 输入 数据 中 第 三 行 记录 的 最 后 一 个 字段 为 字符 。 


data saslib.inventory; 
input Product ID $ Instock Price; 
Cost=Price*0.15}; 
datalines; 

POO1R 12 125.00 
































p301M 23 five hundred 
100.00 








提交 执行 后 查看 日 志 窗 口 信息 ， 如 图 2.52 所 示 。SAS 提 示 在 第 10~13 列 (因为 是 列表 输入 方式 ， 所 以 要 赋值 给 Price 的 是 five， 对 应 于 第 10~13 列 ) 的 数据 对 变量 Price 无 效 。 为 了 便于 分 析 和 修正 ，SAS 
还 在 日 志 窗 口 列 出 了 输入 缓冲 区 的 值 、PDV 中 各 变量 的 值 ， 包 括 DATA 步 中 定义 的 变量 和 自动 变量 ERROR 和 _N 等 。 该 数据 错误 只 是 会 导致 所 生成 的 观测 中 存在 缺失 值 ，DATA 步 并 不 会 停止 执行 


12 data saslib.inventory; 

13 input Product ID $ Instock Price; 
14 Cost=PricewB.15: 

15 datalines: 


HOTE: 在 第 18 行 、 第 10-13 列 中 有 对 “Price” 无 效 的 数据 .。 


RULE : ----+----1----+----2----+----3----+---- 身 ----+----5----+----6----+----7----+----8 


18 P361H 23 Flue hundred 
Product_ ID=P301HM Instock=23 Price=. Cost=. ERROR =1 NN =3 


NOTE : 的 对 局 和 失 值 执 1 人 由 纺 让。 
和 在 全 和 次 类 ( 行 : 列 ) 


HOTE: 和 站 SsASLIB. 呈 用 个 和 4 小 变量 。 


NOTE : “DATA 1 豆 入 名 (局 


Se ] 昌 小 





图 2.52 ”数据 错误 


对 于 这 样 的 问题 ， 有 多 种 处 理 方式 。 在 本 例 中 可 以 不 作 处 理 ， 因 为 它 只 会 导致 观测 中 存在 缺失 值 。 其 他 类 似 的 情况 ， 可 以 通过 调整 输入 方式 ， 例 如 使 用 格式 化 输入 等 方法 来 解决 。 


语义 错误 


在 下 面 的 程序 中 ，DATA 步 读 取 外 部 数据 文件 ， 并 指定 文件 中 字段 值 之 间 的 分 隔 符 为 逗号 (，) 。 注 意 ， 其 中 INFILE 语 句 的 选项 DLM= 误 写 为 DLMA= 了 。 











data saslib.Inventory; 

infile invtfile dlma=','"'; 

input Product ID $ Instock Price; 
run; 加 


























提交 程序 执行 后 查看 日 志 窗 口 的 信息 ， 如 图 2.53 所 示 。SAS 提 示 选 项 名 称 DLMA 无 效 。 因 为 出 错 ，SAS 停 止 处 理 并 创建 没有 观测 值 的 数据 集 。 


3451 data saslib.Inventory: 
3452 infile inutfile dlma=" 


23 
ERROR 23-2: 许 项 名 称 “DLMA” 无 效 。 


3453 input Product ID $ Instock Price; 
3454 runs 


NOTE: 由 于 山 异 ，SAsS 
EE ee Es : 有 @ 个 观测 和 3 个 变量 。 
WARNING: 小 Wj] 丘 集 SASLIB -INUENTORY 由 只 向 及 
HOTE: i 语句 所 用 时 间 如 涉 这 时 
实际 时 间 8 和 
CPW 日 十 | 日 小 





图 2.53 ”语义 错误 


这 时 需要 更 正 该 选项 名 称 为 DLM = ， 并 再 次 提交 执行 。 


4. 引 号 不 配对 


在 执行 SAS 程 序 时 ， 有 时 会 出 现 比较 意外 的 情况 。 例 如 提交 了 代码 后 ， 并 不 产生 任何 结果 ， 日 志 窗 口 仅 显 示 代码 信息 ， 没 有 对 应 的 SAs 语 句 执行 提示 信息 ， 不 知道 SAs 在 干什么 ， 有 时 编辑 器 窗口 会 一 直 
表示 PROC 步 正在 运行 。 这 时 首先 需要 检查 是 不 是 存在 代码 中 引号 不 配对 的 问题 。 


在 下 面 的 代码 中 ，FILNAME 语 句 指定 文件 引用 时 ， 文 件 名 结束 后 遗漏 了 对 应 的 单 引 号 (') 。 








filename customfl 'c:\sas\data\customer dsd.dat; 
data saslib.customer 
length Name $20 Address $40; 














infile customfl dsd; 
input Customer ID $ Name $ Adgdress 3$; 

















proc print data=saslib.customer noobs; 
run; 





提交 代码 执行 ， 并 查看 日 志 窗 口 ， 有 原始 代码 ， 但 没有 语句 执行 提示 信息 ， 如 图 2.54 所 示 。 


Filename customfl Csasv data\ custonmer dsd.dat; 


data saslib .customer 
length Mame $28 Address $40; 
inf1ile customfl dsdl ; 
input Customer ID $ Name $ fddress $s: 


Fun: 


proc print data=saslib .customer noobs; 
"Un: 








图 2.54 引号 不 配对 


遇 到 的 这 样 的 问题 ， 建 议 先 提 交 下 列 代码 将 引号 配对 ， 从 而 使 程序 完成 执行 过 程 ， 再 来 检查 修正 程序 的 错误 。 这 3 行 代码 除了 可 以 解决 单 引 号 和 双 引 号 不 匹配 的 问题 以 外 ， 还 可 以 解决 注释 标记 不 匹配 ， 
以 及 遗漏 分 号 、QUIT 或 RUN 语 句 的 问题 。 


六 
quit; 
run; 


2.6 本章 小 结 


本 章 首先 介绍 了 SAS 编 程 的 基本 概念 ， 具 体 包括 SAS 风 辑 库 、SAS 数 据 集 、SAS 数 据 集 管理 、 系 统 选 项 以 及 SAS 程 序 结 构 等 内 容 ， 在 此 基础 上 介绍 了 DATA 步 处 理 数据 的 原理 ， 重 点 讲解 了 如 何 使 用 DATA 
步 的 各 种 输入 方式 来 读 取 不 同 格式 的 外 部 文件 中 的 数据 ， 并 创建 数据 集 ; 接 下 来 介绍 了 如 何 运用 IMPORT 过 程 读 取 外 部 的 数据 文件 ， 以 及 如 何 通过 LIBNAME 语 句 和 PROC SQL 访问 关系 型 数据 集 库 系 统 中 的 
数据 ;在 本 章 的 最 后 ， 还 介绍 了 SAS 程 序 开发 中 常见 的 几 种 错误 现象 及 其 处 理 方法 。 


ge ss 
第 3 草 ”对 单个 数据 集 的 处 理 

在 DATA 步 中 可 以 使 用 SET、MERGE、MODIFY 或 UPDATE 语 句 对 数据 集 进行 加 工 处 理 。 在 对 数据 集 进行 处 理 前 ， 可 以 使 用 SAS 窗 口 环境 的 VIEWTABLE 窗 口 、PRINT 过 程 ,或 者 PROC CONTENTS (或 
PROC DATASETS 的 CONTENTS 语 句 ) 对 数据 集 进 行 查看 ， 了 解 其 基本 情况 ， 比 如 ， 包 含 多 少 个 观测 、 多 少 个 变量 、 变 量 名 称 、 类 型 等 。 


本 章 主要 介绍 如 何 使 用 SET 语 句 对 单个 数据 集 进行 操作 ， 例 如 读 取 部 分 变量 、 读 取 部 分 观测 、 修 改变 量 值 、 生 成 新 变量 ， 以 及 对 数据 集中 的 观测 排序 分 组 等 。 至 于 在 DATA 步 中 使 用 MERGE、MODIFY 
和 UPDATE 语 句 ， 以 及 SET 语句 对 多 个 数据 集 的 处 理会 在 第 4 章 介 绍 。 在 本 章 后 面 还 将 介绍 SAs 循 环 语句 、 数 组 、 在 开发 SAs 程 序 过 程 中 常用 的 对 数据 值 进行 处 理 的 函数 ， 以 及 如 何 将 SAs 数 据 集中 的 数据 导出 
到 外 部 文件 。 


在 使 用 DATA 步 基于 已 经 存在 的 数据 集 生成 新 数据 集 时 ， 可 以 指定 在 新 数据 集中 不 需要 包含 的 变量 而 仪 读 取 其 他 变量 ， 或 者 指定 仪 需要 在 新 数据 集中 包含 的 变量 。 该 功能 可 以 通过 DATA 步 中 的 SET 语句 
和 数据 集 选 项 KEEP= 和 DROP= 来 实现 ， 也 可 以 通过 KEEP 和 DROP 语 句 来 实现 。 


1. 使 用 数据 集 选 项 KEEP= 和 DROP= 


使 用 数据 集 选项 KEEP= 和 DROP= 的 基本 形式 如 下 : 








DATA 新 数据 集 ; 
SET 原 数 据 集 (KEEP | DROP= 变 量 列表 ); 




















RUN; 


在 该 过 程 中 ，DATA 步 通过 读 取 原 数 据 集 的 部 分 变量 来 建立 新 数据 集 。 新 数据 中 包含 的 变量 由 所 使 用 的 选项 (KEEP= 或 DROP=) 给 出 的 变量 列表 确定 。 使 用 选项 KEEP= 表 示 只 读 取 变量 列表 中 的 变量 ， 
而 使 用 选项 DROP= 则 表示 读 取 除 变 量 列 表 中 列 出 的 变量 之 外 的 其 他 所 有 变量 。 


例 3.1: 读 取 数 据 集 sashelp.shoes 中 与 产品 销售 相关 的 变量 Product、Stores 和 Sales， 建 立新 数据 集 。 


代码 如 下 : 


data work.shoes partl; 

set sashelp.shoes (keep=Product Stores Sales); 
ruany 
proc print data=work.shoes partl (obs=5) noobs; 
run; 





在 上 面 的 代码 中 ，SET 语 句 使 用 数据 集 选项 KEEP= 指 定 的 Product、Stores 和 Sales。PROC PRINT 打 印 所 生成 的 数据 集 work.shoes_part1 的 前 5 条 观测 ， 如 图 3.1 所 示 。 可 以 看 到 ， 该 数据 集中 包含 了 变 


量 Product、Stores 和 和 Sales。 


ales 





Product Stores 








Boot 12 29 71701 
Men's Casual 4 | 567 242 
MIEnms Dress 1 


sandal 10 





slipper 14 


图 3.1 例 3.1 打 印 输 出 的 数据 集 内 容 


下 面 使 用 数据 集 选 项 DROP= 来 实现 相同 的 功能 ， 代 码 如 下 : 


data work.shoes part2; 
set sashelp.shoes (drop=Region Subsidiary Inventory Returns); 
rn 








因为 sashelp.shoes 的 变量 包含 Product、Sstores、Sales、Region、Subsidiary、lnventory 和 Returns， 所 以 当选 项 DROP= 中 指定 了 Region、Subsidiary、lnventory 和 Returns 时 ， 剩 下 的 变量 
Product、Stores 和 Sales 都 会 被 读 取 并 写 入 数据 集 work.shoes part2。 所 生成 的 数据 集 work.shoes_part2 和 前 面 示例 中 生成 的 work.shoes _part1 相 同 。 


简单 来 说， 选择 使 用 选项 KEEP= 还 是 DROP= 依 赖 于 哪 种 方法 会 需要 指定 较 少 的 变量 。 但 相 比较 而 言 ， 使 用 选项 KEEP= 会 明确 指明 需要 读 取 的 变量 ， 这 样 在 比较 大 的 作业 中 可 以 避免 读 取 预 期 之 外 的 变 


2. 使 用 KEEP 和 DROP 语 名 
在 DATA 步 中 ，KEEP 和 DROP 语 句 同样 可 用 于 选取 写 入 到 新 数据 集中 的 变量 。 使 用 DROP 和 KEEP 语 句 的 基本 形式 如 下 : 


DATA 新 数据 集 ; 
SET 原 数 据 集 ; 
KEEP | DROP 变 量 列表 ; 























RUN; 





在 该 过 程 中 ，DATA 步 会 读 取 原 数 据 集 的 所 有 变量 ， 但 在 写 入 新 数据 集 前 只 保留 部 分 变量 。 新 数据 集中 包含 的 变量 由 所 使 用 的 语句 (KEEP 语 句 或 DROP 语 句 ) 给 出 的 变量 列表 确定 。 使 用 KEEP 语 句 表示 
只 选取 变量 列表 中 变量 ， 而 使 用 DROP 语 句 则 表示 选取 除 变量 列表 之 外 的 其 他 所 有 变量 。 


例 3.2: 读 取 数据 集 sashelp.shoes 中 跟 产 品 销售 相关 的 变量 Product、Stores 和 Sales， 建 立新 数据 集 。 
下 面 两 段 代 码 分 别 使 用 KEEP 语 句 和 DROP 语 句 来 完成 上 述 功能 ， 生 成 数据 集 work.shoes_part3 和 work.shoes_part4。 


代码 1: 


data work.shoes part3; 

set sashelp.shoes; 

keep Product Stores Sales; 
run; 


代码 2: 


data work.shoes part4; 

set sashelp.shoes; 

drop Region Subsidiary Inventory Returns; 
run; 





在 代码 1 中 ，DATA 步 会 读 取 数据 集 sashelp.shoes 中 的 所 有 变量 ， 并 选取 KEEP 语 句 指定 的 Product、Stores 和 Sales 创 建新 数据 集 work.shoes_part3。 在 代码 2 中 ，DATA 步 的 DROP 语 句 指定 了 
Region、Subsidiary、Inventory 和 Returns， 那 么 剩 下 的 变量 Product、Stores、Sales 会 被 选取 写 入 数据 集 work.shoes_part4。 这 里 所 生成 的 数据 集 work.shoes_part3 和 work.shoes_ part4 也 和 
work.shoes part1 相 同 。 


使 用 KEEP 语 句 还 是 DROP 语 句 ， 与 选择 使 用 数据 集 选项 KEEP= 还 是 DROP= 的 标准 一 样 。 从 上 面 的 示例 中 可 以 看 出 ， 它 们 都 可 以 实现 相同 的 功能 。 那 么 ， 在 开发 程序 时 具体 该 怎样 选择 呢 ? 


先 来 理解 一 下 它们 在 执行 过 程 中 的 不 同 之 处 。 在 DATA 步 中 ，SET 语 句 会 将 数据 读 入 程序 数据 向 量 PDV 中 。 在 SET 语句 中 使 用 数据 集 选项 时 ， 只 有 选取 的 变量 才 会 被 读 入 PDV 中 ， 最 后 写 入 新 数据 集 
使 用 KEEP 和 DROP 语 句 来 选取 变量 时 ，SET 语 句 会 将 原 数据 集中 的 所 有 变量 读 入 PDV 中 ， 然 后 再 通过 相应 的 KEEP 和 DROP 语 句 进行 选取 并 写 入 新 数据 集 。 所 以 数据 集 选项 KEEP= 和 DROP= 会 控制 读 入 程序 
数据 向 量 PDV 中 的 变量 ， 使 用 数据 集 选项 通常 会 更 有 效率 。 


另外 ， 有 些 功 能 可 以 通过 数据 集 选 项 KEEP= 和 DROP= 实 现 ， 但 KEEP 和 DROP 语 句 不 能 实现 ， 接 下 来 会 介绍 


3. 一 个 DATA 步 中 创建 多 个 数据 集 


数据 集 选项 KEEP= 和 DROP= 除 了 可 以 在 SET 语句 中 使 用 之 外 ， 还 可 以 用 于 DATA 语 句 中 指定 的 数据 集 。 这 样 就 可 以 在 一 个 DATA 步 中 通过 给 每 个 数据 集 使 用 选项 KEEP= 和 DROP= 来 创建 包含 不 同 变量 的 
多 个 数据 集 。 而 KEEP 和 DROP 语 句 却 实现 不 了 该 功能 ， 因 为 它们 会 影响 所 有 的 输出 数据 集 


例 3.3: 分 别 读 取 数据 集 sashelp.shoes 中 关于 产品 销售 情况 的 变量 (Product、Stores 及 Sales) 和 产品 库存 情况 的 变量 (Product、Inventory 及 Returns) ， 并 将 这 两 类 变量 写 入 两 个 数据 集 


work.shoes sales 和 work.shoes inventory。 
代码 如 下 : 


data work.shoes sales (keep=Product Stores Sales) 
work.shoes inventory (keep=Product Inventory Returns); 
set sashelp.shoes; 











工 
proc Print data=work.shoes sales (obs=5) noobs; 
title "Product Sales"; 














proc print data=work.shoes inventory (obs=5) noobs; 
title “Product Inventory"; 























两 个 PRINT 过 程 打 印 的 数据 集 work.shoes_sales 和 work.shoes_inventory 中 的 前 5 条 数据 分 别 如 图 3.2 和 图 3.3 所 示 。 它 们 分 别 包 含 变量 Product、Stores、Sales 和 Product、Inventory、Returns。 


Product Sales 








Product clas 
Ee 12 | $29,761 
Men's Casual 4 $67 242 
Men's Dress 7 | $76,793 
Sandal 10 | $62.819 
Slipper 14 $68.641 





Product Inventory 





Product Inventory 
Boot $191,821 $769 
Men's Casual $118.036 $2,284 
Men's Dress $136,273 $2,433 





Sandal $204,284 $1,861 
Slipper $279.795 | $1,771 


图 3.3 ” 例 3.3 输 出 的 产品 库存 信息 
4. 有 效 地 使 用 数据 集 选 项 KEEP= 和 DROP= 


在 DATA 步 中 ， 可 在 DATA 语 句 和 SET 语句 中 使 用 数据 集 选项 KEEP= 和 DROP=。 在 DATA 语 句 使 用 这 些 选项 ，PDV 中 会 包括 输入 数据 集中 的 所 有 变量 ， 不 过 ， 只 有 当 变 量 从 PDV 中 写 入 结果 数据 集 时 ， 这 
些 选 项 才 会 产生 影响 。 然 而 ， 在 SET 语 句 中 使 用 这 些 选项 时 ， 这 些 选项 会 确定 哪些 变量 要 从 输入 数据 集中 读 取 到 PDV 中 ， 也 就 是 说 ，SAS 不 会 将 未 包括 的 变量 读 入 PDV。 在 数据 集 很 大 时 ， 这 种 方式 会 使 程序 
执行 更 有 效率 。 


在 上 面 代码 的 基础 上 可 在 SET 语 句 中 增加 选项 DROP= 来 控制 变量 Region 和 Subsidiary 不 被 读 入 PDV， 以 提高 程序 执行 效率 。 如 下 : 


data work.shoes sales (keep=Product Stores Sales) 
work.shoes inventory (keep=Product Inventory Returns); 
set sashelp.shoes (drop=Region Subsidiary); 

run; 








有 时 候 ， 部 分 变量 虽然 不 需要 输出 到 新 数据 集 ， 但 在 进行 运算 处 理 时 却 需要 用 到 ， 这 时 候 这 些 变量 必须 被 读 入 PDV 中 ， 那 么 此 时 就 不 适合 在 SET 语句 中 使 用 数据 集 选 项 KEEP= 和 DROP= 了。 对 于 这 种 情 
况 ， 可 在 DATA 语 句 中 使 用 数据 集 选项 KEEP=、DROP= ， 或 使 用 KEEP、DROP 语 句 来 实现 。 


3.2 ”操作 数据 集 的 观测 

在 对 数据 集 进 行 操作 时 ， 通 党 会 需要 对 满足 条 件 的 特定 观测 进行 操作 ， 例 如 修改 变量 值 等 ， 这 时 需要 用 到 条 件 语句 、 赋 值 语句 ， 以 及 表达 式 。 本 节 首 先 介 绍 SAs 表 达 式 ， 接 着 讲解 如 何 使 用 表达 式 结 合 
条 件 语句 和 赋值 语句 来 对 SAS 数 据 集 的 观测 进行 操作 ， 最 后 介绍 使 用 SORT 过 程 对 数据 集 排序 ， 以 实现 对 观测 进行 分 组 。 此 外 ， 还 简单 地 介绍 如 何 对 单个 分 组 数据 进行 操作 。 分 组 数据 在 对 多 个 SAS 数 据 集 进 
行 加 工时 会 有 更 为 丰富 的 使 用 ， 这 部 分 内 容 在 第 4 章 中 进行 介绍 。 


3.2.1 SAS 表 达 式 


表达 式 是 操作 数 和 操作 符 的 序列 ， 该 序列 会 形成 一 组 可 执行 并 产生 结果 值 的 指令 。 其 中 ， 操 作 数 可 以 是 常量 、 变 量 或 表达 式 ; 操作 符 是 表示 比较 、 数 学 计算 或 逻辑 运算 的 符号 ， 也 可 以 是 SAS 函 数 或 者 
括号 组 。 在 SAs 程 序 语句 中 ， 创 建 变量 、 赋 值 、 求 新 值 、 转 换 变量 和 执行 条 件 处 理 都 会 用 到 表达 式 。 


表达 式 的 例子 如 下 : 3、x、x+1、age<10、trim (last) 镍 ，'first。SAS 表 达 式 的 结果 值 是 数字 值 、 字 符 值 或 布尔 值 。 


1. 操 作 数 


操作 数 可 以 是 常量 、 变 量 或 表达 式 。SAS 常 量 是 表示 一 个 固定 值 的 数字 或 字符 串 。 常 量 可 用 作 许 多 SAs 语 句 的 表达 式 ， 包 括 变量 赋值 语句 和 IF-THEN 语 句 ， 还 可 作为 特定 选项 的 值 ， 例 如 OBS=5。SAsS 
量 


中 存在 4 类 常量 : 字符 常 


f name='Tom' then do; 
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如 果 字 符 常量 包括 单 引 号 ， 则 将 该 常量 放 入 双 引 号 中 。 例 如 ， 为 了 指定 字符 值 Tom's， 使 用 下 面 的 形式 : 


if name="Tom's" then do; 





或 者 将 字符 串 放 入 单 引 号 ， 并 且 用 两 个 连续 的 单 引号 表示 撤 号 。SAS 将 两 个 连续 的 引号 作为 一 个 引号 。 例 如 ， 要 表示 字符 串 Tom's， 则 使 用 下 面 的 形式 : 


if name='Tom''s' then do; 





要 表示 Tom “s， 可 以 使 用 以 下 形式 : 


f name="Tom""s" then do; 





[Ee 


SS 注意 使 用 引号 一 定 要 匹配 ， 否 则 会 致使 SAS 误 读 当前 的 错误 语句 以 及 跟随 其 后 的 语句 。 


符 串 后 紧 随 字母 X， 例 如 '546F6D'x 表 示 字 符 串 “Tom”。3 引 号 中 
村 


字符 常量 还 可 以 以 十 入 进 制 形式 表示 。 字 符 的 十 六 进 制 常量 是 一 个 在 单 引号 或 双 引 号 中 偶数 位 的 十 六 进 制 字符 表示 的 字符 串 ， 并 且 该 
导 符 串 的 偶数 个 十 六 进 制 字符 ， 例 如 '54，6F6D x。 


如 果 有 前 导 或 尾 缀 空格 ， 则 会 出 错 ， 错 误 信 息 会 写 入 日 志 中 。 可 以 使 用 逗号 使 引号 中 的 字符 串 更 可 读 。 如 果 使 用 逗号 ， 则 逗号 必须 分 隔 该 

(2) 数字 常量 

数字 常量 指 的 是 SAS 语 句 中 出 现 的 数字 值 。 数 字 常量 可 以 表示 为 标准 计数 法 、 科 学 计数 法 和 十 六 进 制 计数 法 ， 例 如 1、-5、+49、1.23、01、2E23、0.5e-10 等 。 对 于 大 于 103“-1 的 数字 常量 ， 必 须 使 用 
科学 计数 法 。 

数字 常量 也 可 以 以 十 六 进 制 值 表示 。 该 十 六 进 制 值 以 数字 (通常 是 0) 开始 ， 接 着 是 多 个 十 六 进 制 字符 ， 以 字母 X 结 束 。 常 量 最 大 可 包含 16 个 有 效 的 十 六 进 制 字符 (0~9、A~F) 。 例 如 ，0c1x、9x。 

(3) 时 间 日 期 常量 

在 SAs 中 还 可 以 创建 日 期 常量 、 时 间 常 量 、 时 间 日 期 常量 。 这 些 常量 的 形式 为 包含 在 单 引 号 或 双 引 号 中 的 指定 日 期 或 时 间 ， 并 接着 跟随 一 个 d (日 期 ) 、t (时 间 ) 或 dt (日 期 时 间 ) 来 说 明 值 的 类 型 。 
例如 ，'1jan2013'd、'9: 25t、'01may12: 9: 30: 00'dt。 任 何 引 号 中 包括 的 前 导 或 尾 缀 空格 都 不 会 影响 这 些 常量 的 处 理 。 

(4) 位 测试 常量 


位 测试 常量 是 在 引号 中 由 0、1 和 点 组 成 的 字符 串 ， 而 且 其 后 紧 跟 b， 例 如 'http:/www.hzcourse.comy/resource/readBook? 
path=/openresources/teach_ebook/uncompressed/15092/OEBPS/Text/..1.0000'b。0 用 于 测试 该 位 是 否 为 0%，1 用 于 测试 该 位 是 否 为 1， 点 (.) 则 表示 忽略 该 位 的 测试 。 逗 号 和 空格 可 揪 入 位 掩 码 中 增 
加 可 读 性 。 在 位 测试 中 ， 位 常量 用 于 对 字符 或 数字 变量 进行 位 比较 。 当 测试 字符 值 时 ，SAs 会 将 掩 码 的 最 左 位 与 字符 串 的 最 左 位 对 齐 ， 测 试 则 从 左 往 右 逐 位 处 理 对 应 位 。 当 测试 数字 值 时 ， 数 字 值 会 从 浮 点 
数 截断 为 32 位 整 型 ，SAS 将 掩 码 的 最 右 位 与 值 的 最 右 位 对 齐 ， 然 后 往 左 逐 位 处 理 对 应 位 。 


下 面 的 例子 用 于 测试 字符 型 变量 a: 




















es 





f a='http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/..1.0000'b then do; 


如 果 a (从 左 开始 计数 ) 第 3 位 为 1， 并 且 第 5~8 位 都 是 0， 则 该 比较 为 真 ， 并 且 表 达 式 a='http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/15092/OEBPS/Text/..1.0000'b 的 结果 为 1; 否则 ， 比 较为 假 ， 表 达 式 值 为 0。 


位 掩 码 不 可 以 用 作 赋 值 语句 中 的 位 值 。 例 如 下 面 的 语句 是 无 效 的 : 

x='0101"by /* incorrect*/ 

$BINARYw. 和 BINARYw. 格 式 ， 以 及 $BINARYw.、BINARYw.d 和 BITSw.d 输 入 格式 在 位 测试 中 非常 有 用 。 可 以 将 字符 和 数字 值 转换 为 对 应 的 二 进 制 值 进行 位 测试 。 
(5) 变量 


变量 是 一 组 描述 给 定 特性 的 数据 值 ， 可 用 于 表达 式 中 。 


如 果 在 一 个 表达 式 中 指定 了 变量 ,但 是 变量 值 不 匹配 需要 的 类 型 ， 例 如， 在 需要 数值 变量 的 地 方 使 用 了 字符 变量 ,或 者 相反 ， 在 需要 字符 变量 的 地 方 使 用 了 数值 变量 ，SAS 则 会 尝试 将 该 变量 值 转换 成 
所 期 望 的 类 型 。SAS 会 按照 如 下 规则 自动 在 字符 变量 和 数值 变量 之 间 转 换 : 


“ 如 果 使 用 要 求 数字 操作 数 的 操作 符 (例如 加 号 +) 时 指定 了 字符 变量 ，SAS 将 字符 变量 值 转 换 为 数字 。 
* 在 使 用 比较 操作 符 比较 字符 变量 和 数值 变量 时 ，SAS 会 将 字符 变量 值 转换 为 数字 。 
" 如 果 使 用 要 求 字符 操作 数 的 操作 符 ( 例 如 级 联 操作 符 ) 时 指定 使 用 了 数值 变量 ，SAS 使 用 格式 BEST12. 将 数值 变量 值 转换 为 字符 。 关 于 格式 BEST12.， 请 参考 SAS 帮 助 文档 。 


: 如 果 在 赋值 语 多 的 左 侧 使 用 了 数值 变量 而 右 侧 是 字符 变量 ，SAS 会 将 字符 变量 值 转换 为 数字 。 反 之 ， 当 左 侧 是 字符 变量 而 右 侧 是 数值 变量 时 ，SAS 会 使 用 格式 BESTn. 将 数值 变量 值 转换 为 字符 。 其 


中 ，n 是 左 侧 变量 的 长 度 。 


当 执 行 自动 转换 时 ，SAS 会 在 日 志 中 打印 提示 信息 ， 表 明 发 生 了 和 转换。 如果 将 字符 变量 值 转换 成 数字 时 产生 了 无 效 的 数字 值 ， 那 么 表达 式 的 结果 是 缺失 值 ， 并 且 会 在 日 志 窗 口 打印 错误 消息 ， 同 时 ,会 


将 自动 变量 ERROR 设置 为 1。 
还 可 以 通过 PUT 和 INPUT 函 数 转换 数据 值 。 这 些 函 数 比 自动 转换 会 更 有 效 ， 本 章 后 面 的 章节 会 介绍 。 
2. 操 作 符 
操作 符 包含 算术 操作 符 、 比 较 操 作 符 、 逻 辑 操作 符 等 ， 分 别 用 于 算术 运算 、 比 较 表 达 式 和 对 布尔 值 进行 操作 等 。 此 外 ， 它 还 提供 了 一 些 只 能 用 于 WHERE 语句 或 WHERE= 选 项 的 操作 符 。 
(1) 算术 操作 符 
使 用 算术 操作 符 的 表达 式 其 运算 结果 是 数值 。 表 3.1 给 出 了 算术 操作 符 的 定义 、 示 例 及 示例 表达 式 的 计算 结果 。 


表 3.1 算术 操作 符号 


(2) 比较 操作 符 
使 用 比较 操作 符 的 表达 式 其 运算 结果 是 真 (1) 或 假 (0) 。 表 3.2 给 出 了 SAS 的 比较 操作 符 、 等 效 字符 、 说 明 及 使 用 该 操作 符 的 例子 。 


表 3.2 ”比较 操作 符 


符 号 等 效 字 符 


讨 
/< 
Ne 
中 


num>8 
num=8 
Sales>=100 


Sales<=100 





num in (3, 4, 5) 


@ 注 意 *NE 的 符号 依赖 于 当前 键盘 上 的 字符 ， 可 能 为 ^=、=、 或 ~=。 
**> 二 和 和 < 三 用 于 与 以 前 SAS 版 本 兼容 。 在 WHERE 从 名 或 PROC SQL 中 不 支持 。 


在 对 数字 值 进 行 比较 时 ，SAS 会 基于 值 进行 比较 。 缺 失 数字 值 小 于 任何 其 他 数字 值 。 表 达 式 为 真 时 ， 表 达 式 的 结果 是 1 或 真 (true) ; 表达 式 为 假 时 ， 表 达 式 的 结果 是 0 或 假 (false) 。 比 较 操作 符 常用 
于 IF-THEN 语 句 中 ， 如 以 下 例子 : 
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f x<y then c=; 
else c=12; 








也 可 在 赋值 语句 表达 式 中 使 用 比较 ， 例 如 : 


C=5* (x<y) +12* (x>=y); 


这 时 ，SAS 先 计算 括号 内 表达 式 (x<y) 和 (x>=y) 的 值 (为 0 或 1) ， 然 后 使 用 计算 结果 替代 括号 里 的 表达 式 。 因 此 ， 假设 x<=6，y=8， 那 么 赋值 语句 c=5* (1) +12* (0) 的 结果 是 c=5。 
记 住 ， 比 较 不 同 长 度 的 数字 值 时 可 能 会 产生 不 正确 的 结果 ， 因 为 小 于 8 字 节 的 值 比 8 字 节 的 值 有 更 小 的 精度 。 另 外 ， 四 舍 五 入 也 会 影响 数字 比较 的 输出 。 


字符 操作 数 的 比较 也 会 产生 数字 值 1 (或 真 ) 或 0 (或 假 ) 。SAS 会 从 左 至 右 逐 个 字符 对 字符 操作 数 进行 比较 。 空 格 和 缺失 值 小 于 其 他 任何 可 打印 字符 值 。 字 符 顺 序 依 赖 于 计算 机 的 排列 顺序 ， 此 顺序 通 
常 指 的 是 在 ASCII| 或 EBCDIC 编 码 中 的 顺序 。 例 如 在 EBCDIC 和 ASCII 的 排列 顺序 中 ，G 大 于 A。 因 此 ， 表 达 式 'Gray'>'Adams' 的 值 为 1 或 真 。 


如 果 是 不 同 长 度 的 两 个 字符 值 进行 比较 ， 在 比较 之 前 ，SAs 会 假设 已 经 用 空格 补充 到 了 较 短 的 字符 操作 数 结尾 处 ， 使 两 个 字符 值 有 了 相同 的 长 度 。 在 比较 中 尾 缀 空格 会 忽略 ， 所 以 fox 等 于 fox 。 
而 ， 在 字符 值 开 始 处 和 中 间 的 空格 都 会 参与 比较 ， 所 以 ，fox 不 等 于 fox 。 


然 


还 可 以 在 比较 操作 符 之 后 使 用 “: ”来 比较 字符 表达 式 的 指定 前 缀 。SASs 会 在 比较 过 程 中 截断 较 长 的 值 使 其 与 较 短 值 的 长 度 一 致 。 在 下 面 的 例子 中 ， 在 等 于 符号 后 面 的 冒号 修改 器 告诉 SAS 仅 查看 变量 
LastName 的 第 一 个 字符 是 否 为 5。 
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f lastname=:'S"} 





(3) 逻辑 (布尔 ) 操作 符 


使 用 逻辑 操作 符 的 表达 式 其 运算 结果 是 布尔 值 ， 即 为 真 (1) 或 假 (0) 。 表 3.3 给 出 SAs 的 逻辑 操作 符 、 等 效 字符 、 示 例 及 其 说 明 。 


表 3.3 ”还 辑 操 作 符 





符 例 > 操作 符 说 明 
两 边 的 操作 数 都 是 1 时 ，AND 操作 的 结果 是 1 ; 否则 ， 结 果 
性 (a>b & c>d) | b 古 口 忆 了 口 
KE 0 
z z OR 两 边 的 操作 数 中 任何 一 个 是 和 OR 操作 的 结果 是 1 
区 用 | (a>b or c>d) pf 
记 住 ， 任 何 非 零 、 非 缺失 值 和 常量 的 值 总 } 
, NOT 在 值 为 0 的 操作 数 之 前 将 该 值 变 成 1， 在 缺失 值 的 操作 数 之 
3 not (a>b) 


前 将 其 变 为 1， 其 他 非 零 、 非 缺 作 : 值 的 操 作 效 之 前 将 其 变 为 0 


@ 注 意 *OR 的 符号 取决 于 当前 操作 环境 ， 可 能 为 坚 线 (|) 、 断 开 的 坚 线 (|) 或 叹 号 (! ) 。 
xxNOT 的 符号 取决 于 当前 操作 环境 ， 可 能 为 、^、~。 
(4) 其 他 操作 符 
在 SAS 表 达 式 中 还 可 以 使 用 一 些 其 他 操作 符 ， 例 如 级 联 操作 、 括 号 等 ， 如 表 3.4 所 示 。 
表 3.4 级 联 、 括 号 及 正 负 数 操 作 符 
操作 符 操作 符 说 明 操作 符 说 明 
| Po 正 数 


| 
负数 





() 表示 求 i 


@@ 注 意 * 级 联 符号 取决 于 当前 操作 环境 。 

在 表达 式 ， 特 别 是 包含 多 个 操作 符 的 复合 表达 式 中 ， 经 常会 将 一 些 子 表达 式 放 入 括号 0 中 ， 表 示 优 先 对 括号 中 的 表达 式 求 值 ， 同 时 也 会 提高 表达 式 的 易 读 性 。 

级 联 操作 符 | 会 将 操作 符 两 侧 的 字符 值 进行 级 联 。 通 常会 使 用 赋值 语句 将 级 联 操作 的 结果 存储 在 结果 变量 中 。 如 果 事 先 没 有 通过 LENGTH 或 ATTRIB 语 句 指 定 该 结果 变量 的 长 度 ， 则 其 长 度 为 在 级 联 操作 
中 每 个 变量 或 常量 的 长 度 总 和 。 

级 联 操作 不 会 去 除 操作 数 的 前 导 和 尾 缀 空格 。 如 果 变 量 带 尾 缀 空格 ， 在 级 联 前 使 用 TRIM 函 数 可 去 除 值 中 的 尾 缀 空格 。 如 果 要 去 除 操作 数 的 前 导 和 尾 缀 空格 ， 通 常 使 用 表达 式 TRIM (LEFT (char) ) 。 

(5) WHERE 语句 操作 符 


在 WHERE 语句 或 数据 集 选 项 WHERE= 中 使 用 的 表达 式 称 为 WHERE 表达 式 。 在 WHERE 表达 式 中 除了 可 以 使 用 上 述 操作 符 之 外 ， 还 可 以 使 用 如 表 3.5 所 示 的 操作 符 。 注 意 ， 这 些 操作 符 只 能 在 WHERE 表达 
式 中 使 用 。 


表 3.5 WHERE 表达 式 可 用 的 操作 符 


操作 符 操作 符 说 明 表达 式 例子 


BETWEEN'AND 在 指定 范围 中 empnum between 500 and 1000 


CONTAINS J 
配 模式 


IS NULL. IS MISSING 
=" 包含 指定 单词 的 拼写 变 体 lastname=*'Smith' 











company ? 'SAS,' 





Position 1s missing 






name like 'D%' 


将 从 名 添加 到 WHERE 语句 中 而 不 需 


SAME-AND a same and yeaI<1999 
妥 重 新 输入 





关于 这 些 操作 符 的 详细 使 用 情况 ， 请 参考 SAS 帮 助 文档 。 
(6) MIN、MAX 操 作 符 


MIN (><) 和 MAX (<>) 操作 符 分 别 用 于 找到 两 个 操作 数 中 的 最 小 值 和 最 大 值 。 例 如 ， 如 果 A<B， 那 么 A> <B 的 返回 值 为 A，A< >B 的 返回 值 为 B。 如 果 比 较 中 包含 缺失 值 ，SAS 使 用 缺失 值 的 排序 顺 
序 。 


注意 ， 在 WHERE 语句 或 WHERE 从 句 中 ，< > 操作 符 等 同 于 NE。 


3. 复 合 表达 式 求 值 


仅 包 含 一 个 操作 符 的 表达 式 为 简单 表达 式 。 为 了 表示 复杂 的 逻辑 或 操作 ， 表 达 式 中 通常 会 包含 多 个 操作 符 ， 这 样 的 表达 式 称 为 复合 表达 式 。 复 合 表 达 式 中 经 常 使 用 括号 对 操作 数 进行 分 组 。 当 遇 到 复合 
表达 式 时 ，SAS 会 遵循 下 述 规则 确定 计算 表达 式 各 部 分 的 顺序 : 


如 果 复 合 表 达 式 中 有 括号 ，SAS 会 先 对 在 括号 中 的 表达 式 求 值 ， 再 对 括号 外 的 表达 式 求 值 。 





. 表 3.6 中 给 出 了 不 同 组 的 优先 级 。SAS 先 对 组 I 中 的 表达 式 部 分 求 值 ， 然 后 依次 对 组 卫 、 组 王 等 组 求 值 。 


表 3.6 中 也 给 出 了 同 组 内 的 求 值 顺序 。 对 组 工 中 的 操作 符 是 从 右 到 左 ， 而 其 他 组 的 操作 符 都 是 从 左 到 右 。 


表 3.6 复合 表达 式 求 值 顺序 


机 


上 
J 
站 
涝 
委 
人 








本 
| MIN 
| 

: 

| 

组 V9 从 左 到 右 bw WW 
| T 
| LE 
= | EQ 

组 V 从 左 到 右 “=、 NE™Y 
| E 

组 Wl 从 左 到 右 和 | 本 OR 





(DNOT、NE、OR 以 及 组 IV 中 的 级 联 符号 取决 于 当前 操作 环境 。 
3.2.2 ”选取 部 分 观测 
在 建立 新 数据 集 时 ， 有 以 下 两 种 方式 可 以 从 已 经 存在 的 数据 集中 选取 观测 到 新 数据 集中 。 
. 通过 删除 不 满足 条 件 的 观测 来 保留 想 要 的 观测 。 
. 仅 接受 满足 条 件 的 观测 。 


条 件 可 以 由 IF 语句 、WHERE 语 句 或 数据 集 选项 WHERE= 中 的 条 件 表达 式 来 指定 。WHERE 语 句 和 数据 集 选项 WHERE= 可 以 用 在 DATA 步 和 PROC 步 中 ， 两 者 的 使 用 方法 基本 相同 ， 本 书 第 5 章 会 介绍 它们 
在 PROC 步 中 的 使 用 。 本 节 主 要 介绍 如 何 使 用 各 种 IF 条 件 语句 ， 以 及 同时 使 用 IF-THENVELSE 语 句 和 OUTPUT 语 句 ， 将 已 经 存在 的 数据 集中 的 观测 根据 给 定 条 件 一 次 或 多 次 写 入 一 个 或 多 个 输出 数据 集中 。 


1. 使 用 DELETE 语 句 删 除 满足 条 件 的 观测 


在 DATA 步 中 可 以 结合 使 用 IF 语句 和 DELETE 语 句 来 删除 满足 条 件 的 观测 ， 其 基本 形式 如 下 : 








IF 条 件 表达 式 THEN DELETE 














在 该 过 程 中 ，SAS 首 先 判断 条 件 表达 式 是 否 为 真 。 如 果 为 真 ， 则 执行 THEN 从 句 中 的 DELTET 语 句 。 DELETE 语 句 会 让 SAS 立 即 返回 DATA 步 的 开始 处 读 取 下 一 条 观测 ， 当 前 观测 不 会 写 入 输出 数据 集中 。 
注意 ，DELETE 语 句 不 会 删除 输入 数据 集中 的 观测 。 


例 3.4: 在 数据 集 saslib.contact 中 选取 地 址 信息 (Address) 不 为 缺失 值 的 观测 建立 新 数据 集 work.contact address。 


已 经 存在 的 数据 集 saslib.contact 中 包含 客户 联系 信息 ， 内 容 如 图 3.4 所 示 。 


Customer ID | Name Age Position Marmage Address 


COO1 Greg William 42 | Manager | Single 14 Bndge St san Franclsco, CA 
COO2 Emily Cooker 33 | sales 42 Rue Marston 

COO3 Henry Cooper .| Office Marned 52 Rue Marston Pars 

COOd Jimmy Cruze 34 Manager | Single 

COUS Adam Smuth d45 | Sales 111 Clancey Court, NGC 


图 3.4 例 3.4 输 入 数据 集 的 内 容 


在 DATA 步 中 IF 语句 用 于 判断 Address 信 息 是 否 为 缺失 值 ，DELETE 语 句 则 可 将 Address 为 缺失 值 的 观测 删除 。 代 码 如 下 : 


data work.contact address; 
set saslib.contact; 








if address = "" then delete; 
run; 
proc print data=work.contact address; 
run; 


PRINT 过 程 打印 的 数据 集 work.contact_address 如 图 3.5 所 示 。 其 中 不 包含 编号 (Customer_ID) 为 C004 的 客户 信息 ， 因 为 其 地 址 信息 为 缺失 值 。 


Customer ID | Name Age Position | Mamiage Address 

COO1 Greg William 42 | Manager | Single 14 Bndge st San Franclsco, CA 
COO2 Emily Cooker 33 Sales 42 Rue Marston 

CO03 Henry Cooper .| Office Marned 52 Rue Marston Pans 

CO05 Adam Smth 45 Sales 111 Clancey Court, NC 


图 3.5 ” 例 3.4 打 印 的 输出 数据 集 内 容 


2. 使 用 取 子 集 的 IF 语 句 接受 满足 条 件 的 观测 


选择 满足 条 件 的 观测 另 一 种 方式 是 直接 选取 满足 条 件 的 观测 ， 即 使 用 取 子 集 的 IF 语句 (Subsetting IF) ， 其 基本 形式 如 下 : 





IF 条 件 表达 式 ; 





当 条 件 表达 式 的 值 为 真 时 ， 继 续 处 理 该 观测 ;否则 停止 处 理 该 观测 并 返回 DATA 步 开始 处 读 取 下 一 条 观测 ， 且 该 观测 不 会 写 入 输出 数据 集 。 该 IF 语 句 称 为 选取 子 集 的 IF 语 句 ， 是 因为 所 产生 的 输出 数据 集 
是 原始 数据 集 的 子 集 。 


例 3.5: 选取 数据 集 saslib.contact 中 其 职位 (Position) 为 Manager 的 观测 ， 建 立新 数据 集 work.contact_manager， 并 打印 新 生成 的 数据 集中 的 数据 。 


代码 如 下 : 


data work.contact manager; 
set saslib.contact; 





if position = "Manager"; 
run; 
proc print data=work.contact manager noobs; 
run; 


PRINT 过 程 打 印 的 数据 集 数据 如 图 3.6 所 示 。 


Customer ID Name Age | Postbon Mamage | Address 

| 
CO01 Greg Whlllam Ja | Manager Single 14 Bndge St. San Francisco, CA 
CO04 Jimmy Cruze 34 Manager Single 


图 3.6 例 3.5 打 印 的 输出 数据 集 内 容 


当 DELETE 语 句 和 取 子 集 的 IF 语 句 都 可 以 完成 相同 的 操作 时 ， 选 择 哪 种 方式 呢 ? 主要 依据 如 下 : 


" 由 于 DELETE 语 句 和 取 子 集 的 IF 语 名 需要 构造 的 条 件 表达 式 不 同 ， 因 此 在 编写 程序 的 时 候 ， 通 常 选择 需要 较 少 比较 次 数 的 条 件 表 达 式 的 语句 ， 因 为 这 会 提高 程序 执行 效率 。 


“ 在 比较 次 数 相近 时 ， 通 常 选择 正 向 的 条 件 表达 式 ， 也 就 是 说 选择 取 子 集 的 IF 语 句 。 


当 数 据 中 存在 缺失 值 或 可 能 有 拼写 错误 的 数据 值 时 ， 使 用 取 子 集 的 IF 语 句 也 更 容易 产生 需要 的 结果 。 


3. 使 用 OUTPUT 语 句 建立 多 个 数据 集 


结合 条 件 语句 和 OUTPUTi 语 句 可 以 在 一 个 DATA 步 中 创建 多 个 SAS 数 据 集 ， 以 便 分 别 包 含 输入 数据 集 的 不 同 观 测 。 使 用 OUTPUT 语 句 的 基本 形式 如 下 : 


OUTPUT < 数据 集 >; 





OUTPUT 语 句 将 当前 观测 写 入 指定 数据 集 。 其 数据 集 必须 为 在 DATA 语 句 中 出 现 的 数据 集 。 当 未 指定 数据 集 时 ，SAS 会 将 当前 观测 写 入 DATA 语 句 的 所 有 数据 集中 。 
例 3.6: 选取 在 数据 集 saslib.contact 中 选取 职位 (Position) 为 Manager 的 观测 ， 建 立新 数据 集 work.contact_manager， 对 其 他 职位 的 观测 建立 新 的 数据 集 work.contact_others。 


代码 如 下 : 





data work.contact manager 

work.contact others; 

set saslib.contact; 

if position = "Manager" then output work.contact manager; 


else output work.contact others; 





























监 
proc print data=work.contact manager noobs; 
title "Postion is Manager"; 


























proc print data=work.contact others noobs; 
title "Postition is not Manager"; 




















PRINT 过 程 语句 打印 的 数据 集 数 据 如 图 3.7 所 示 。 


Postion Is Manager 


OT 


Name Age 
Gred William 42 Manager Single 14 Bridge st San Francisco, CA 





JimmYy Cruze 34 Manager Single 











Postmmon Is not Manager 


Adam Smith 45 Sales 111 Clancey Court, NC 
Emily Cooker 33 | sales 42 RUue Marston 


Henry Cooper .| Office Married 52 Rue Marston Paris 


图 3.7 例 3.6 打 印 的 输出 数据 集 内 容 


如 果 在 DATA 步 中 不 使 用 任何 OUTPUT 语 句 ， 在 每 次 迭 代 结 束 时 会 自动 将 观测 写 入 DATA 语 句 指定 的 所 有 数据 集中 。 但 是 ， 如 果 在 DATA 步 中 使 用 了 OUTPUT 语 句 ， 每 次 迭代 结束 时 就 不 会 自动 将 观测 写 
入 任何 数据 集 。 因 此 ， 一 旦 在 程序 使 用 了 OUTPUT 语 句 ， 则 必须 为 所 有 需要 写 入 数据 集 的 观测 使 用 OUTPUT 语 句 。 此 外 ， 还 需要 注意 的 是 ， 如 果 在 OUTPUT 语 句 之 后 进行 计算 ， 生 成 或 改变 的 变量 值 也 不 会 
写 入 输出 数据 集 。 


SAS 在 执行 完 QOUTPUT 语 句 后 ， 观 测 会 一 直 存 在 于 PDV 中 ， 直 到 本 次 迭代 结束 。 所 以 在 一 次 迭代 中 可 以 多 次 使 用 OUTPUT 语 句 将 PDV 中 的 观测 写 入 一 个 或 多 个 数据 集 。 


例 3.7: 在 saslib.contact 中 选取 职位 (Position) 为 Manager 的 观测 输出 到 数据 集 work.contact manager 中 ， 并 将 年 龄 (Age) 大 于 等 于 35 的 联系 人 的 观测 输出 到 数据 集 work.contact agege35 中 。 


代码 如 下 : 








data work.contact manager 

work.contact agege35; 

set saslib.contact; 

if position = "Manager" then output work.contact manager; 


if age >= 35 then output work.contact agege35; 

















run; 
proc print data=work.contact manager noobs; 


title "Position is Manager"; 








run; 
proc print data=work.contact agege35 noobs; 




















title "Age is older than 35"7 
run; 


PRINT 语 句 打印 的 两 个 数据 集 内 容 如 图 3.8 所 示 。 其 中 Customer_ID 为 C001 的 观测 同时 存在 于 两 个 数据 集 work.contact_manager 和 work.contact_agege35 中 ， 因 为 其 同时 满足 两 个 IF 语 句 的 条 件 。 


Posmbon Is Manager 


Grea William a42 Manager | Sinale 14 Bridge Sst. San Francliseo, CA 


Jimmy Cruze | 3 和 4 Manager | Single 


Age Is older than 35 


Adam Smith 45 Sales 111 Clancey Court, NC 


Greg William | 42 Manager Single 14 Bridge St. $an Francisco, CA 


图 3.8 例 3.7 打 印 的 输出 数据 集 内 容 


3.2.3 ”操作 所 选取 的 观测 

除了 将 满足 条 件 的 观测 值 直接 写 入 结果 数据 集 外 ， 在 DATA 步 中 还 可 以 操作 满足 条 件 的 观测 中 的 变量 值 ， 例 如 修改 变量 名 字 以 及 生成 新 变量 等 。 
1.IF-THENVELSE 语 名 

SAs 选 取 观 测 进行 操作 时 ， 最 常用 的 方式 是 通过 IF-THEN/ELSE 语 句 。 其 基本 形式 如 下 : 


IE 条 件 表达 式 THEN 可 执行 语句 ; 
<ELSE 可 执行 语句 ;> 




















其 中 : 
` 条 件 表达 式 是 一 个 或 多 个 SAS 表 达 式 ， 通 常 为 由 比较 操作 符 和 操作 数组 成 的 表达 式 。 


"SAS 会 对 条 件 表 达 式 的 求 值 ， 结 果 为 真 (true) 时 ， 执 行 THEN 从 名 中 的 可 执行 语句 ; 条 件 表达 式 的 值 为 假 (false) 时 ，SAS 忽 略 THEN 从 句 。 可 执行 语 名 必须 是 在 DATA 步 的 单 次 选 代 中 可 以 执行 的 


SAS 语 句 。 最 常用 的 可 执行 语句 是 赋值 语句 。 


ELSE 从 各 提供 对 该 观测 的 可 选 操 作 。 当 条 件 表达 式 为 真 (true) 时 忽略 该 从 名 ; 为 假 (false) 时 ， 执 行 ELSE 从 句 中 指定 的 语句 。ELSE 从 各 可 以 不 存在 ， 如 果 存 在 则 必须 紧 跟 在 对 应 的 IF-THEN 语 名 


之 后 。 
例 3.8: 在 saslib.inventory 中 包含 了 产品 在 各 地 区 的 库存 和 价格 信息 。 公 司 现 决 定 将 每 种 产品 在 北京 的 销售 价格 提高 20%， 其 他 地 区 保持 不 变 。 


代码 如 下 : 





data work.Inventory2; 
set saslib.Inventory; 
if Region="BJ" then 
Price=Price*1 .2;} 














run; 
proc print data=work.1Inventory2 noobs; 
run; 





PRINT 过 程 打 印 价格 提高 后 的 数据 集 内 容 如 图 3.9 所 示 。 
例 3.9: 公司 决定 将 每 种 产品 在 北京 的 销售 价格 提高 20%， 其 他 地 区 销售 价格 提高 10%。 


这 时 可 使 用 ELSE 从 句 ， 代 码 如 下 : 





data work.Inventory3; 

set saslib.Inventory }; 
if Region="BJ" then 
Price=Price*1 .2;} 
else Price=Price*]1.1; 

















run; 
proc print data=work.1Inventory3 noobs; 
run; 





PRINT 过 程 打 印 价格 提高 后 的 数据 集 内 容 如 图 3.10 所 示 。 


P| 





POOTR BJ 12 120 
POOTR = 10 100 
POO03T BJ 34 48 
P301M 口 区 200 
PCO2M > 中 12 100 


Product_ID 





POO1R BJ 12 | 150 
POO1R SH 10 | 110 
P003T BJ 34 | 48 
P301M SZ 23 | 550 


PCO2M hh 12| 110 


2. 赋 值 语句 


赋值 语句 是 可 执行 语句 ， 常 用 于 对 变量 进行 赋值 。 其 基本 形式 为: 


变量 = 表达 式 ; 


A 
(0 
SN 
< 个 
/村 
洱 
Ey 
人 
jeg 
二 


以 是 单个 变量 名 、 数 组 引用 或 左 侧 的 SUBSTR 函 数 〈( 即 SUBSTR 函 数 出 现在 赋值 操作 符 左 侧 ) 等 。 若 变量 已 经 存在 ， 赋 值 语句 会 修改 该 变量 的 值 ; 如 果 变 量 不 存 


. 表达 式 是 任何 SAS 表 达 式 。 


赋值 语句 用 于 对 等 号 (=) 右 侧 的 表达 式 求 值 ， 并 将 结果 存储 在 等 号 (=) 左 侧 的 变量 中 。 表 达 式 中 可 包含 出 现在 等 号 左 侧 的 变量 。 这 时 ， 变 量 的 原始 值 用 于 对 表达 式 求 值 ， 并 且 结 果 存 储 在 等 号 左 侧 的 


变量 中 。 


在 例 3.8 中 ， 使 用 了 赋值 语句 (Price=Price*1.2; ) 提高 产品 价格 。 在 处 理 第 一 条 观测 时 ， 输 入 数据 集中 的 Price 值 为 125， 对 表达 式 Price*1.2 求 值 ， 结 果 为 150， 因 为 左 侧 变量 为 Price， 所 以 结果 仍然 
存储 在 Price 中 。 因 此 ， 输 出 数据 集中 Price 的 值 为 150。 


3.DO 语 名 


DO 语句 也 是 可 执行 语句 。 通 过 DO 语句 可 以 将 一 组 可 执行 语句 指定 为 一 个 单元 来 执行 。DO 语 句 的 基本 形式 如 下 : 


.可 执行 语句 组 … 





END; 


在 DO 语句 和 END 语 句 之 间 的 语句 称 为 DO 组 (DO Group) 。DO 语 句 也 可 以 诅 套 DO 语句 。 在 IF-THEN/ELSE 语 句 中 ， 简 单 的 DO 语句 通常 用 于 根据 IF 条 件 是 否 为 真 来 指定 要 执行 的 一 组 可 执行 语句 。 
例 3.10: 基于 数据 集 saslib.Inventory 中 的 数据 ， 将 每 种 产品 在 北京 的 销售 价格 提高 20%， 库 存 增加 1 倍 ， 其 他 地 区 的 销售 价格 提高 10%， 库 存 增加 50%。 


这 时 在 IF 语 句 THEN 从 句 和 ELSE 从 句 中 使 用 DO 语句 ， 代 码 如 下 : 





data work.Inventory4; 
set saslib.Inventory; 
if Region="BJ" then 
dor 











Price=Price*1 .2;} 
Instock=Instock*2; 











end; 
else 
do; 
Price=Pricex1 .1，; 
Instock=Instock*1 .5;} 











end; 
run; 
proc print data=work.1Inventory4 noobs; 
run; 





PRINT 过 程 打 印 价 格 所 生成 的 数据 集 内 容 如 图 3.11 所 示 。 





Product 10 





POOTR BJ 24.0 150 
POOTR HH 15.0 110 
POO3T BJ 68.0 48 
P301M Cp 34.5 S90 


PCO2M 2 中 18.0 ‘10 


图 3.11 例 3.10 打 印 的 输出 数据 集 内 容 
4. 谨 套 IF-THEN/ELSE 语 句 


一 条 IF-THEN/VELSE 语 句 可 根据 条 件 提供 两 种 不 同 的 可 选 操作 。 很 多 时 候 需 要 根据 一 系列 互 斥 的 条 件 执行 不 同 的 操作 ， 这 时 可 使 用 嵌 套 的 IF-THEN/VELSE 语 句 。 两 层 伐 套 的 IF-THENVELSE 语 句 的 基本 形 
式 如 下 : 











IE 条 件 表达 式 1 THEN 可 执行 语句 1; 
ELSE IE 条 件 表达 式 2 THEN 可 执行 语句 2; 
ELSE 可 执行 语句 3; 





























其 执行 过 程 如 下 : 

1) SAs 计 算 条 件 表 达 式 1 的 值 。 

2) 当 条 件 表达 式 1 的 结果 为 真 时 ，SAS 执 行 可 执行 语句 1， 并 忽略 紧 跟 其 后 的 ELSE 从 句 ， 包 括 谋 套 的 IF-THEN/ELSE 语 句 。 所 有 执行 过 程 完成 

3) 当 条 件 表 达 式 1 的 结果 为 假 时 ， 忽 略 紧 跟 其 后 的 THEN 从 句 ， 并 进行 下 一 步 。 

4) 判断 SAs 条 件 表达 式 2 的 值 。 

5) 当 条 件 表达 式 2 的 结果 为 真 时 ，SAS 执 行 可 执行 语句 2， 并 忽略 紧 跟 其 后 的 ELSE。 所 有 执行 过 程 完成 

6) 当 条 件 表达 式 1 的 结果 为 假 时 ， 和 忽略 紧 跟 其 后 的 THEN 从 句 ，SAS 执 行 可 执行 语句 3。 所 有 执行 过 程 完成 

例 3.11: 基于 数据 集 saslib.Inventory 中 的 数据 ， 公 司 决定 将 每 种 产品 在 北京 的 销售 价格 提高 20%， 在 上 海 的 销售 价格 提高 15%， 其 他 地 区 的 销售 价格 提高 10%。 


使 用 赃 套 的 IF-THENVELSE 语 句 进行 处 理 的 代码 如 下 : 





data WOTrK. InVentoryD7 
set saslib.Inventory; 
if Region="BJ" then 
Price=Price*1 .2;} 
else if Region="SH" then 
Price=Price*1.15; 
else 
Price=Price*1 .1; 
































run; 
proc print data=work.1InventoryS noobs; 
run; 








PRINT 过 程 打 印 各 地 区 价格 提高 后 的 数据 集 内 容 如 图 3.12 所 示 。 


Product ID 





POO1R BJ 12 | 50 
POO1R SH 10 | 115 
P003T BJ 34, 48 
P301M SZ 29 | 550 


PCO2M SH 12 a 


图 3.12 ” 例 3.11 打 印 的 输出 数据 集 内 容 
5.SELECT 语 句 


还 可 以 通过 SELECT 语句 构造 不 同 的 条 件 来 操作 观测 。SELECT 语 句 的 基本 形式 如 下 : 








SELECT <select- 表 达 式 >; 

WHEN when- 表 达 式 可 执行 语句 ; 
<..WHEN when- 表 达 式 可 执行 语句 ; > 
<OTHERWISE 可 执行 语句 ;> 

END; 






































其 中 : 
“ select- 表 达 式 指定 计算 单个 值 的 SAS 表 达 式 。 


. When- 表 达 式 为 任意 SAS 表 达 式 。 在 SELECT 语 和 句 和 END 语 和 句 之 间 的 语句 称 为 SELECT 组 。SELECT 组 中 要 求 至 少 有 一 条 WHEN 语 句 ， 而 WHEN 语 句 中 要 求 至 少 有 一 个 when- 表 达 式 。when- 表 达 式 为 真 
时 ， 执 行 跟随 其 后 的 可 执行 语句 ; 和 否则， 忽略 其 后 可 执行 语 匈 。 


“ 可 执行 语句 可 以 是 任何 可 执行 的 SAS 语 句 ， 包 括 赋值 语句 、DO 语 句 、SELECT 语 名 或 空 语句 等 。 空 语句 用 于 WHEN 语 句 中 时 ，SAS 会 认为 该 条 件 为 真 ， 但 是 不 做 任何 操作 。 
. OTHERWISE 从 名 中 指定 当 所 有 的 WHEN 条 件 都 不 满足 时 需要 执行 的 语句 。 
例 3.12: 同 例 3.11 一 样 ， 将 公司 每 种 产品 在 北京 的 销售 价格 提高 20%， 在 上 海 的 销售 价格 提高 15%， 其 他 地 区 的 销售 价格 提高 10%。 


使 用 SELECT 语 句 的 代码 如 下 : 





data work.Inventory6; 
set saslib.Inventory; 
select (Region); 
when ("BJ") Price=Price*1 .2; 
when ("SH") Price=Price*1.15; 
otherwise Price=Price*1.1; 




















end; 
run; 
proc print data=work.1Inventory6 noobs; 
run; 











PRINT 过 程 打印 数据 集 work.Inventory6 的 内 容 与 work.Inventory5 一 样 ， 这 里 不 再 给 出 。 


3.2.4 分 组 与 排序 


SAS 对 数据 集 进 行 操作 时 ， 经 常 需 要 在 SET、MERGE、MODIFY 或 UPDATE 语 句 中 使 用 分 组 数据 。 使 用 分 组 数据 最 基本 的 方法 是 使 用 BY 语句 ， 其 基本 形式 如 下 : 





BY 变量 列表 ; 





BY 语句 除了 可 用 于 DATA 步 中 对 数据 集 进行 操作 外 ， 也 可 以 用 于 SAS PROC 步 。 在 这 些 地 方 使 用 分 组 数据 时 ， 要 求 所 有 的 观测 必须 按 BY 语句 中 的 变量 以 数字 或 字符 顺序 升序 或 降序 排列 ， 或 者 以 某 种 方 


式 分 组 ， 例 如 以 日 历 的 月 份 或 格式 化 后 的 值 为 条 件 进行 分 组 。 如 果 数 据 不 满足 这 个 条 件 ， 可 使 用 SORT 过 程 对 其 进行 排序 分 组 。 


本 小 节 会 介绍 如 何 对 数据 集中 的 变量 排序 ， 以 使 数据 集 符合 分 组 需要 ， 以 及 在 处 理 单个 数据 集 时 分 组 数据 的 运用 。 本 书 第 4 章 也 会 介绍 分 组 数据 的 使 用 。 


1. 使 用 SORT 过 程 对 观测 进行 排序 


使 用 SORT 过 程 的 基本 形式 如 下 : 





PROC SORT DATA= 输 入 数据 集 <OUT= 输 出 数据 集 > < 其 他 选项 >; 
BY 变量 列表 ; 








RUN; 





其 中 : 
“ 输入 数据 集 指定 需要 排序 的 数据 集 。 
选项 上 OUT= 指 定 存 储 排序 后 数据 的 新 数据 集 。 当 该 选项 不 存在 时 ， 排 序 生成 的 数据 写 入 由 选项 DATA= 指 定 的 数据 集 。 输 出 数据 集 可 以 和 输入 数据 集 相 同 ， 不 过 此 时 会 覆盖 输入 数据 集 。 当 输出 数据 集 

与 输入 数据 集 不 同时 ， 会 创建 新 数据 集 。 

. 还 可 以 指定 其 他 选项 。 常 用 选项 如 表 3.7 所 示 。 

表 3.7 SORT 过 程 常用 选项 
选项 语法 选项 说 明 

在 使 用 了 选项 NODUPKEY 时 ， 将 重复 的 观测 写 人 数据 集 
在 使 用 了 选项 NOUNIQUEKEY 时 ， 将 唯一 的 观测 写 信 数据 集 
从 排 夺 输出 的 数据 集中 删除 排序 键 值 午 复 的 观测 


DUPOUT= 数据 集 
UNIQUEOUT= 数据 集 


NODUPKEY 
NOUNIQUEKEY 从 排序 输出 的 数据 集中 删除 排序 键 值 唯 一 的 观测 
NOTHREADS |THREADS 不 启用 或 启用 多 线程 排序 


" 变量 列表 指定 排序 变量 ， 可 以 是 一 个 变量 或 多 个 变量 。 当 指定 多 个 变量 时 ，SAS 首 先 会 按照 第 一 个 变量 分 组 ， 然 后 在 同一 个 分 组 内 依照 变量 列表 中 的 其 他 变量 逐个 进行 排序 。 


例 3.13: 对 公司 员工 先 按照 部 门 (Dept) 名 称 进 行 排序 ， 在 同一 部 门 里 按照 入 职 日 期 (Entry_Date) 进行 排序 。 
公司 员工 所 在 数据 集 saslib.employee 的 部 分 数据 如 图 3.13 所 示 。 该 数据 集 包含 员工 编号 、 姓 名 、 所 在 部 门 、 职 位 和 入 职 年 份 。 


使 用 SORT 过 程 对 该 数据 集 进行 排序 时 ， 在 BY 语句 中 先后 指定 排序 的 变量 Dept 和 Entry_Date。 


proc sort data=saslib.employee out=saslib.employee sorted; 
by Dept Entry Date; 
runy 








排序 后 生成 的 数据 集 saslib.employee_sorted 在 VIEWTABLE 窗 口中 打开 如 图 3.14 所 示 。 


本 VIFETITIABLE: Saslib. Faployee 
Emp_ ID 


malolw nn | | | 


CDOU; 
ECODS 
ECO1T 
ELU1z 
EUQUUz 
EDUI3 
ELUUe 
ED 3 


EDoo4 
EDOH 


EL004 


EQ005 


EQOOS 
EQD14 


EQO19 


Emp_Name 
Benamin Leslle 
Thormes Ulreer 
Bdan Scott 
Jackson Cook 
sara Duncan 
Alexandra May 


Jose Nelson 
Faith ay 
Christiam Peters 
Hunter J oyce 
Kewnin Lee 
Evan Look 
[Lucas Leorard 
vanessa Percy 
Jesus E dward 


图 3.13” 例 3.13 输 入 数据 集中 部 分 内 容 


Dept 


THe 


DG Senor Manager 
L5G Senor analyt 
L5G Analyst 

LoG 人 Manage 
DSG Brnalvst 

DSG Manager 
L5G Senioranalyt 
QSG Directar 

DSG Senor Anabyst 
DSG Analyst 

L5G Analvst 

SG Manager 
DSG Senior Anakuat 
B35G Analyst 

QSG Serior Analyd 


C= VIETTABLE: Snaxslib. Feaployee sortited 


] 

了 
5 
b 
7 
8 
9 
山 
11 
EF: 
13 
14 


15 


| Emp _ID 
ECO12 
EC003 
ECO11 
ECOO2 
EC004 
ECD005 
ECOOE 
EC007 
ECO1D 
EC008 
ECOO9 
ED003 
ED013 
EDOO4 
EDOI 


Emp Name 


Jackson Look 
Thormos Dlrver 
darm Scott 
Jose Nelson 
Kewin Le 
Ganel Leslie 
Haley Leonard 
Baton Lester 
Jack Smith 
Phebecca Lews 
Jordan Green 
Bemlarmlm Leslhe 
lexandra hay 
Chnstan Peters 
Huntaer Joyce 


图 3.14 例 3.13 输 出 数据 集 部 分 内 容 


默认 情况 下 ，SAS 根 据 BY 变 量 的 值 升序 排列 分 组 。 


|Dept 


Lo 
L3G 
L3G 
Lo5b 
L3G 
L5G 
Lo5b 
L3G 
L5G 
L3G 
C3G 
D050 
D5G 
D5G 
D5 


Tithe 
hlanager 
Genwor Enalyst 
Lnabusl 
entor pnalyst 
Analusl 
Anakyst 
点 Tall 
Bnahst 
Anakyst 
总 Fa 让 
Analyst 
Senior Manager 
barnager 
senior Analyst 
analyst 


Entrw Date 

Dab 1 dd 
Da/0l1 #1 3996 
1172071998 
Db0r 1 936 
[1373071999 
D1 2000 
10W01 #2a000 
D38282000 
DB S92001 
DB 372001 
所 /07on00 
册 ，e57 0U 
UbAe5y euUU1 
12A0972001 
D806 2UU 





Entry Date 

Db 330 
D901 9398 
11720A1998 
T00200U 
D9200 
10162002 
D034 a003 
D010B 2004 
D302005 
Dod 2009 
12731/2010 
D042b 3993 
0411 2000 
05r182001 
08 门 37e0UU 





2. 使 用 选项 DESCENDING 对 观测 按 变量 降序 排序 


在 BY 语句 中 ， 还 可 以 在 每 个 变量 之 前 指定 选项 DESCENDING 对 变量 进行 降序 排序 ， 或 者 根据 需要 对 部 分 变量 进行 升序 排序 、 部 分 变量 降序 排序 。 其 基本 形式 如 下 : 

















BY <DESCENDING > 变量 1 << DESCENDING > 变量 2http://www.hzcourse.com/resource/readRBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/...>; 





























如 果 变 量 前 面 存在 选项 DESCENDING， 则 该 变量 在 组 内 按 降 序 排序 ， 否 则 按 默 认 的 升序 排序 。 


例 3.14: 首先 将 saslib.employee 中 的 员工 数据 按 部 门 名 称 进行 排序 (升序) ， 每 个 部 门 内 部 的 入 职 日 期 由 近 到 远 进行 排序 (降序) 。 代 码 如 下 : 


proc sort data=saslib.employee out=saslib.employee descending; 
by Dept descending Entry Date; 
run; 








所 生成 的 saslib.employee descending 在 VIEWTABLE 窗 口 打开 如 图 3.15 所 示 。 


3. 找 到 分 组 中 的 第 一 个 和 最 后 一 个 观测 


在 使 用 BY 语句 时 ，SAS 会 自动 为 BY 语句 中 指定 的 每 个 变量 生成 两 个 临时 变量 : FIRST.BY 变 量 和 LAST.BY 变 量 。 当 变量 值 在 每 个 分 组 中 第 一 次 出 现时 ，FIRST.BY 变 量 为 1， 否 则 为 0; 当 变量 值 在 每 个 分 组 
中 最 后 一 次 出 现时 ，LAST.BY 变 量 为 1， 否 则 为 0。 通 过 这 两 个 变量 可 以 找到 分 组 中 的 第 一 个 和 最 后 一 个 观测 ， 并 进行 相应 的 处 理 。 在 DATA 步 中 使 用 SET 语 句 和 BY 语句 的 基本 形式 如 下 : 

















ttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/OEBPS/Text/.. .其 他 语句 ; 








例 3.15: 取 排 序 生 成 的 saslib.employee_sorted 中 每 个 部 门 最 先入 职 和 最 后 入 职 的 员工 ， 生 成 新 数据 集 saslib.employee fl。 


代码 如 下 : 








data work.employee f]; 
set saslib.employee sorted; 
by Dept; 
if first.Dept or last.dept; 

















run; 
proc print data=work.employee fl noobs; 
run; 











PRINT 过 程 打 印 的 数据 集中 的 数据 如 图 3.16 所 示 。 


GE YI 和 TABILE- 号 二 si Emplovyee descendne 


Emp_ID| Emp_Name Dept Title Entry Date 


1 
2 
3 
4 
5 
6 
? 
8 
9 


ELUU3 


ECOUS 


Eco10 
[EC007 
| EC006 


EL005 
ELDOUd 
ECLOD2 
ELUTT 


上 LU0: 
EC01lz 


EDUU 


EDonB 
EDona 


上 EDUU， 


Jordan Green 
Rebecca Lews 
Jack Srmth 
Aaron Lester 
Haley Leonard 
Garel Leslle 
Kewin Lee 
J0se 网 让 ED 
Adar Colt 
Thomos D lnver 
Jackson Look 
Janniler J ames 
Logan Grihm 
Nathan Hairis 
Elzabeth Eddy 


LsG 
L3G 
C3G 
Lo 
L3G 
C3G 
L3G 
L5G 
L2G 
L3G 
L5G 
BalE 
D5G 
D350 
D5 


图 3.15 ” 例 3.14 输 出 数据 集 部 分 内 容 


Bnabyst 
Bnakbyst 
anakbst 
Bnakbyst 
Dnakst 
nakbyst 
Bnakbyst 


Senor Arialyst 


anabyst 


seniol Aralyst 
Manager 


Bnabyst 
Bnakyst 
nabyst 
Bnakbyst 


1 2 #3112010 
有 LE 
U3,03yan005 
D1 yUB, aUUd 
OD 2003 
107 1B/200c 
DB 2D 
100n #2000 
117eU, 438 
Da/01 1 938 
Db/DrA1 990 
10UBr aU10 
T1004 2009 
0 7 2009 
Da UaUUe 





Emp_ID  Emp_Name Tne Entry Date 
EL012 (© Jackson Cook CSG | Manager 06/07/1998 
ECLUOOY Jordan Green Cat Analyst 1231/2010 
EDOO3 Benjamin Lesle | DSG | Senior Manager | 0A/26/1993 
EDO10 | Jennifer James | DSG Analyst 10/06/2010 
上 CUUe Sara Duncan Do | Analyst D330/199Y9 
EQO004 | Mason Clark OSOG Analyst 06/03/2011 


图 3.16 ” 例 3.15 打 印 的 输出 数据 集 内 容 


4. 使 用 选项 NODUPKEY 删 除 重复 BY 变量 的 观测 


使 用 SORT 过 程 的 NODUPKEY 可 以 在 对 数据 集 按 BY 变量 进行 排序 的 同时 ， 删 除数 据 集中 BY 变量 值 相同 的 观测 。 
例 3.16: 从 原始 数据 文件 contact2.csv 读 取 数 据 到 SAS 数 据 集 saslib.contact2 raw， 并 对 该 数据 集 进行 排序 。 排 序 输出 数据 集 saslib.contact2 中 不 包括 BY 变量 值 相 同 的 观测 ， 删 除 的 观测 保存 在 数据 集 


work.contact2 dup 中 。 


数据 文件 contact2.csv 中 包含 的 数据 记录 如 下 : 


Name, Position,Marriage,Address 

Gr reg W liam, 42, Manager, Single,"14 Bridge St. San Francisco, CA" 
Emily eek 3 Sales, 42 Rue Marston 

eh 0 ,Office, Mar ried,52 Rue Marston Paris 

Greg WII] i 

Jimmy Gea A 
Adam Smith,45,Sales,,"11l1 Clancey Court, NC" 









































读 取 数据 文件 contact2.csv 中 的 记录 创建 数据 集 ， 并 对 其 进行 排序 。 要 求 排序 输出 的 数据 集中 不 包含 Name 值 相同 的 观测 ， 而 且 被 删除 的 观测 保存 在 另外 的 数据 集中 。 





proc import out=saslib.contact2 raw 
datafile="c:\sas\data\ch3\contact2.csv" 
dbms=csv replace; 
getnames=yes; 
datarow=2; 








run; 
proc print data=saslib. Somaek. _raw noobs; 
title "All Observations 





run; 
proc sort data=saslib.contact2 raw 
out=saslib.contact2 
dupout=work.contact2 dup 
nodupkey; 
by Name; 








roc print data=saslib.contact2 noobs; 
title "Observations with Duplicate BY Values Deleted"; 



































roc print data=work.contact2 3 I 
title "Duplicate Observations 











PRINT 过 程 打 印 的 数据 集 内 容 如 图 3.17~ 图 3.19 所 示 。 


AI Observations 








Greg William 42 | Manager | Single 14 Bndge st. San Francisco, CA 
Emily Cooker 33 Sales da Rue Marston 

Henry Cooper .| 人 (ICE MarrIed 52 Rue Marston ParIs 

Greg Willlam .| Manager | Single 

Jimimy Cruze 2d | Manager Single 

Adam smith 45 | Sales 111 Clancey Court, NC 


图 3.17 例 3.16 打 印 的 所 有 观测 数据 集 内 容 


Observations with Duplicate BY Values Deleted 


Adam Smith 45 Sales 111 Clancey Court, NC 
Emily Cooker 33 | Sales 42 Rue Marston 


Greg William 42 | Manager Single 14 Bndge St, San Francisco, CA 
Henry Cooper .| Office Married sa Rue Marston Paris 


Jimmy Cruze 34 Manager Single 


图 3.18 例 3.16 打 印 的 不 含 重复 BY 值 观 测 的 数据 集 内 容 


Duplicate Observations 


Greg Willlam . | Manager | Single 


图 3.19 ” 例 3.16 打 印 的 删除 的 重复 BY 值 观测 的 数据 集 内 容 


在 SORT 过 程 中 ， 输 入 数据 集 saslib.contact2_raw 中 的 第 4 条 观测 (因为 其 名 字 为 “Greg William”， 与 第 1 条 观测 重复 ) 未 写 入 数据 集 saslib.contact2， 而 是 写 入 work.contact2_ dup 中 。 


3.3 ”创建 新 变量 


在 对 SAS 数 据 集 进行 处 理 时 ， 经 常 需 要 根据 原 有 变量 或 变量 值 生成 新 变量 。 根 据 要 实现 功能 的 不 同 ，SAS 提 供 了 多 种 方法 ,例如 通过 数据 集 选 项 RENAME= (RENAME 语 句 ) 、 赋 值 语句 、 求 和 语句 等 
来 实现 不 同 的 功能 。 


3.3.1 数据 集 选 项 RENAME= 和 RENAME 语 名 


在 DATA 步 中 ， 可 使 用 数据 集 选 项 RENAME= 或 RENAME 语 句 修改 一 个 或 多 个 变量 的 名 称 。 跟 前 面 介 绍 过 的 数据 集 选 项 KEEP= 和 DROP= 一 样 ， 数 据 集 选 项 RENAME= 也 可 用 于 DATA 语 句 中 的 输出 数据 
集 和 SET 语句 中 输入 数据 集 。 其 基本 形式 如 下 : 












































RENAME= ( 旧 变 量 名 -1= 新 变量 名 -1 <http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/OEBPS/Text/.. . 旧 变 量 名 -n= 新 变量 名 -n >) 


























RENAME 语 句 的 基本 形式 如 下 : 
































RENAME 旧 变 量 名 -1= 新 变量 名 -1 <http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/OEBPS/Text/.. . 旧 变 量 名 -n= 新 变量 名 -n >; 














其 中 : 

` 旧 变 量 名 指定 在 输入 数据 集中 或 当前 DATA 步 中 新 创建 的 变量 。 

新 变量 名 指定 在 输出 数据 集中 使 用 的 变量 名 或 变量 名 称 列表 。 新 的 变量 名 仅 被 写 入 输出 数据 集 。 

. 数据 集 选 项 RENAME= 或 RENAME 语 名 可 以 修改 多 个 变量 的 名 称 。 
例 3.17: 将 数据 集 saslib.contact2 中 的 变量 Name 重 命名 为 Full Name， 并 将 原 有 Name 中 的 姓 和 名 分 开 为 Last Name 和 First_ Name。 
下 面 3 段 代 码 分 别 在 SET 语句 中 使 用 数据 集 选 项 RENAME=、 在 DATA 语 句 中 使 用 数据 集 选项 RENAME= 和 使 用 RENAME 语 句 来 实现 。 


代码 1: 


data work.contact2 rn; 
set saslib.contact2 (rename= (Name=Full1 Name)); 
First Name=scan (Ful1 Name,1); 
Last Name=scan (Full Name,2); 

run; 加 加 





代码 2 : 





data work.contact2 rn (rename= (Name=Full Name)); 
set saslib.contact2; 
First Name=scan (Name,1); 
Last Name=scan (Name,2); 
run; 加 


代码 3: 


data work.contact2 rn ; 
set saslib.contact2; 
rename Name=Full Name; 
First Name=scan (Name,1); 
Last Name=scan (Name,2); 
run; 加 


这 3 段 代 码 中 都 使 用 了 SCAN 函 数 ， 将 原 Name 变 量 中 用 空格 隔 开 的 姓 和 名 提取 到 变量 Last Name 和 First_ Name 中 。 注 意 ， 在 引用 原 Name 变 量 进行 操作 时 ， 代 码 1 使 用 了 新 变量 名 (Full Name) 、 代 
码 2 和 代码 3 使 用 了 旧 变 量 名 (Name) 。 这 是 因为 在 SET 语句 中 使 用 选项 RENAME= 时 ，SAs 为 输入 数据 集 所 创建 的 PDV 中 的 变量 名 就 成 为 了 新 变量 名 ， 所 以 在 编程 语句 中 引用 原 变量 时 必须 使 用 新 的 变量 
名 。 但 是 如 果 在 DATA 语 句 中 使 用 选项 RENAME= 或 RENAME 语 句 ， 新 变量 名 仅 会 写 入 输出 数据 集 ， 所 以 在 DATA 步 的 其 他 语句 中 引用 该 变量 时 ， 必 须 使 用 旧 的 变量 名 。 


PRINT 过 程 打 印 3 段 代码 的 输出 数据 集 work.contact2_rn 的 内 容 相 同 ， 如 图 3.20 所 示 。 


Full_ Name Age ' Postbon | Mamage Address First Name Last Name 


Adam Smith 45 | Sales 111 Clancey Court, NC Adam smith 


Emily Cooker 33 Sales 42 Rue Marston Emihy Cooker 
Greg William 42 Manager | Single 14 Bndge St San Frandisco, CA Greg Willlam 
Henry Cooper . | 旧作 ce Mamed 52 Rue Marston Pans Henry Cooper 
JImmy Cruze 34 Manager single Jirnmrmy Cruze 


图 3.20” 例 3.17 打 印 输出 数据 集 内 容 
在 SETi 语 句 中 使 用 数据 集 选 项 RENAME=、 在 DATA 语 句 中 使 用 数据 集 选 项 RENAME= 和 使 用 RENAME 语 句 的 比较 如 下 : 
RENAME 语 句 不 能 用 于 PROC 步 ,但 是 数据 集 选 项 RENAME= 可 以 。 
“ 数据 集 选 项 RENAME= 可 以 对 每 个 输出 数据 集 的 变量 单独 更 改名 称 ， 而 RENAME 语 名 修改 的 变量 名 称 对 所 有 输出 数据 集 都 起 作用 。 
“SET 语句 中 的 数据 集 选 项 RENAME= 会 修改 变量 名 ， 此 时 ， 在 编程 语句 中 引用 原 变 量 时 必须 使 用 新 的 变量 名 ; 如 果 在 输出 数据 集中 使 用 RENAME= 选 项 或 使 用 RENAME 语 句 ， 在 编程 语句 引用 原 变量 
时 必须 使 用 旧 的 变量 名 。 
3.3.2 ”赋值 语句 创建 新 变量 


在 DATA 步 中 出 现 的 变量 ， 如 果 不 属于 输入 数据 集 的 变量 ， 而 且 也 不 是 自动 变量 ，SAS 则 会 为 其 创建 新 变量 ， 所 创建 的 新 变量 默认 会 写 入 输出 数据 集 。 可 以 通过 前 面 介绍 的 数据 集 选项 DROP=、 
KEEP=、DROP 语 句 、KEEP 语 句 保留 或 删除 不 需要 的 中 间 变 量 。 


赋值 语句 是 常见 的 创建 新 变量 的 方法 ， 通 常 将 新 变量 放 在 赋值 语句 的 等 号 (=) 左 侧 来 创建 新 变量 ， 
3.12) 和 创建 新 变量 ( 例 3.17) 。 


并 同时 给 该 变量 赋值 。 在 前 面 的 例子 已 经 看 到 了 使 用 赋值 语句 修改 已 经 存在 的 变量 值 ( 例 3.8~ 例 


例 3.18: 数据 集 saslib.revenue_quarter 中 存储 了 公司 产品 今年 不 同 季 度 的 销售 额 ， 年 底 要 计算 全 年 的 总 销售 额 。 


该 数据 集 在 VIEWTABLE 窗 口中 打开 如 图 3.21 所 示 。 


Ee YIETTABLE: Saslitb. Revenue guarter 国 [s] Ed 


HUB REwENUE SOURCE TYPE 


[me 


] 
2 
3 
5 
G 


| Frarkfurt 


FIA 
Framkfurt 
Frarkfurt 
Framkiurt 
Frankfurt 
Frankl urt 
Frankfurt 
Frankfurt 


| Frarikh urt 


Frankfurt 
Frarkhurt 
London 
Londeon 
Londen 


Freight 
Frewght 
Frewght 
Dthver 
Dther 
Dthver 
Passenger 
Passenger 
Passenger 
与 天 [| 写生 
Service 
Service 
Fr 上 Ht 
Frawht 
Fraight 


Direct 
lndiract 
Uther 
Direct 
Indrect 
Uther 
Direct 
Ihndireclt 
Uther 
Diract 
Indirect 
Dther 
Diract 
Indiiect 
Other 


Rew 1 


下 183.117 
id 
中 2 站 人 本 
$30.325 

$1,722 
$2,bi9 
$768,975 

105.439 

$5,039 

$9,257 
$11.789 
$1B.07B 

$414. 357 
$61,351 
$75,155 


图 3.21 例 3.18 输 入 数据 集 部 分 内 容 


Pew_Q2 


$366,234 
$39,788 
$48,228 
$30.325 
$3.444 
$2.679 

中 768.975 
$52.749 
$33,759 
$49.419 
$11.789 
$5,358 
$413.357 
$122,703 
$37.577 


下 面 对 各 季度 的 销售 额 (Rev Q1、Rev_Q2、Rev_Q3 和 Rev_Q4) 相 加 得 到 总 销售 额 Total_Rev， 最 后 使 用 ORMAT 语 句 修改 其 输出 格式 。 


Revw 3 


$366.2 补 
上 3d, 7198 
$2 和.114 
$20.216 

后 3.4 4 
ek 


$1,153,46Y9 


$158.2 和 
$67,519 
$4,257 
$11.799 
$5,358 
$026,715 
$61,351 
中 56.36E 


Rev QO4 之 


$549.351 
上 3d 73E 
$4B 22 
$40 425 
$2444 
$4.01= 
$7BB.97E 
$105,.49: 
$101 ef 
$398,903E 
$23.57E 
$5.35 
$41 3,457 
下 184.055 
$18.785 








data work.revenue; 
set saslib.revenue quarter; 





Total Rev = Rev Q1 + RevV 0 + Rev Q3 + Rev Q4; 
format Total _Rev DOLLAR10 








run; 


所 生成 的 数据 集 work.revenue 在 VIEWTABLE 窗 口中 打开 如 图 3.22 所 示 。 该 数据 集 包 含 了 表示 全 年 总 销售 额 的 变量 


Total Revenue, 


Ce YIETTABLE- York. Revenmue | | 口中 其 


| Hue | REVENUE 


1 

2 
3 
本 
5 
6 
下 
8 
9 
10 
11 
12 
13 
1#4 
15 


| Frankfurt 
| Frarkfurt 
| Frankfurt 
| Frankfunt 
| Frank hurt 
/ Frankfurt 
Frankfurt 
| Franmkfurt 
| Frankfurt 
: Frankhurt 
Frankhurt 
| Frankfurt 
London 
| London 
| London 


Frewht 
Fraaght 
Frewght 
Diher 
Other 
Dther 
Passengel 
Passengel 
Passengel 
ETVYICE 
Service 

0 Brvice 
Frewaht 
Fraeight 
Fraewght 


Direct 
Irvdireet 
Uther 
Direct 
Irdireet 
Dther 
Drect 
Irdirect 
Dther 
Drect 
Iradirect 
Dther 
Drect 
Indirect 
Dther 


$183,117 
$79,6576 
$ed.114 
30,325 
$1 .ee 

中 2.p73 
$re9,975 
$105,439 
人 135.039 
$1d9,257 
$11.789 
$16,076 
41 3997 
$61,351 
$79.155 


$366,234 
上 39.7B8 
$8.226 
$30 ,325 
$9,444 
$2.679 
8.975 
452,74 和 9 
$33,759 
$49.419 
$11.799 
45,358 
$41 3357 
$122,703 
3 or 


$36E,.234 
$439,788 
$24.114 
$20.216 
$3,444 
$1,339 


$1.,153.463 


$158,249 
$67.519 
$146,.257 
$11.789 
$5.358 
$82b.715 
$61.351 
$96,466 


$549,351 
$39,788 
$49.220 
$0,325 
$$3.44 
$4.019 
$769.975 
$1095.439 
$01.279 
$j9.939 
$24.578 
$5.358 
$414.357 
$184.055 
$19.788 


$1 .464.33E 


$198,94C 
有 44.684 
$111.191 
$12,05d 
$10.71E 


中 3.460.3JBE 


$421,99E 
$337,59E 
nA 
$09,944 
$32.15C 


$2,0BB.78E 


中 423.46[ 
$187.98E 





图 3.22 ” 例 3.18 输 出 数据 集 部 分 内 容 


3.3.3 ”对 多 个 观测 求 和 


对 数据 集 进行 处 理 时 ， 经 常会 需要 获得 整个 数据 集中 的 所 有 观测 或 特定 一 部 分 观测 中 的 变 
句 、RETAIN 语 句 、SUM 遂 数 等 方式 对 多 个 观测 中 的 变量 值 进 行 求 和 .。 


量 值 的 总 和 和， 例如 ， 公 司 所 有 产品 的 总 销售 额 、 产 品 在 各 地 区 的 总 销售 额 等 。 在 DATA 步 中 ， 可 使 用 求 和 语 


1. 求 数据 集中 变量 的 总 和 


求 和 语句 的 基本 形式 如 下 : 





变量 + 表达 式 ， 


" 表达 式 是 任意 的 SAS 表 达 式 。 当 迭代 中 表达 式 的 值 为 缺失 值 时 ，SAS 会 将 表达 式 的 求 值 结果 当 作 0 处 理 。 


SAs 在 读 取 第 一 个 观测 前 将 求 和 语句 中 的 累加 变量 的 初始 值 设 置 为 0。 如 果 要 将 求 和 变量 的 初始 值 设 置 为 其 他 的 值 ， 可 使 用 RETAIN 语 句 (后 面 介绍 ) 。 


在 每 次 迭代 中 ，SAS 执 行 该 语句 时 将 表达 式 的 值 与 该 变量 的 值 相 加 ， 结 果 保 持 在 该 罕 加 变量 中 ， 下 次 迭代 时 仍然 可 以 使 用 。 在 一 次 迭代 中 ， 当 表达 式 不 为 缺失 值 时 ， 求 和 语句 等 同 于 赋值 语句 “变量 = 变 
量 + 表达 式 ; ”。 在 求 和 语句 中 ， 当 表达 式 为 缺失 值 时 ，SAs 将 表达 式 的 值 当 作 0 处 理 ， 而 赋值 语句 不 会 这 样 。 


例 3.19: 读 入 公司 销售 数据 建立 数据 集 ， 并 计算 总 销售 额 。 


公司 所 有 员工 销售 数据 所 在 外 部 数据 文件 sales.dat 的 内 容 如 下 : 





ETOO01, Kevin Lee,TSG,$10000 
EDO02, Faith May,CSG,$12000 
ETO04, Jackson Cook,TSG,$18000 
ECO002,Hailey Leonard,CSsG,$23000 
ED004,Jack Smith,QSG,$5000 

















为 了 让 所 生成 的 数据 集中 的 变量 Sales 和 Total_Sales 的 输出 格式 同 输 入 格式 一 样 ， 在 DATA 步 使 用 FORMAT 语 句 指定 变量 Sales 和 Toal_Sales 的 格式 为 DOLLAR10.。 关 于 FORMAT 语 句 本 书 第 5 章 会 介 


力 
绍 。 











filename exfiles "c:\sas\data"; 

data saslib.sales; 

length Name $20; 

infile exfiles (sales) dsgd; 

input Emp ID $ Name $ Dept $ Sales:COMMA10 .; 


format Sales DOLLAR10.; 






































run; 
data work.sales sum; 

set saslib.sales; 

Total SalestSales; 
format Total Sales DOLLAR10.; 





























UnN? 
proc print data=work.sales sum noobs; 
run; 





PRINT 语 句 打印 所 生成 的 数据 集 数 据 如 图 3.23 所 示 。 其 中 ， 变 量 Toal Sales 为 前 面 所 有 观测 中 变量 Sales 值 之 和 |。 


Emp_ID Sales Tolal_Sales 


Kevin Lee 
Faith May 
Jackson Cook 
Hailey Leonard 


Jack Smith 


例 3.20: 计算 公司 所 有 销售 人 员 的 总 销售 额 。 与 上 例 不 同 的 是 


包含 缺失 值 的 数据 集 的 内 容 如 图 3.24 所 示 。 


使 用 求 和 语句 对 Sales 变 量 进行 求 和 的 代码 如 下 : 


E1001 

EDOO2 
ETOOd 
ECOO02 
EDOO4 


图 3.23” 例 3.19 打 印 的 输出 数据 集 内 容 


， 销 售 数据 中 存在 缺失 值 。 


Co0 
Wo 


$10.000 
$12.000 
$18.000 
$23.000 

$5.000 


$10,.000 
$22,000 
40,000 
$63,000 
$68,000 





data work.sales sum; 
set saslib.sales2; 
Total SalestSales; 
format Total Sales DOLLAR10.; 




















对 Sales 求 和 后 得 到 的 数据 集 如 图 3.25 所 示 。 因 为 第 三 条 观测 中 的 Sales 为 缺失 值 


， 求 和 语句 将 其 当 作 0 处 理 ， 所 以 第 三 条 观测 的 Total_Sales 值 与 第 二 条 相同 。 


Sales with Missing Value 


Name 
KeviNn Lee 


Faith May 


JacKson Cook 


Halley Leonard 


JacKk srith 


Emp_ID | Dept Sales 
E10O01 


ED002 


ET004 
EC002 


EDUU4 


图 3.24 


例 3.20 输 入 数据 集 内 容 


TG 


CSG 
TSG 
CSG 
QSG 


$10.000 
$12.000 


$23.000 
$5.000 


Sum for Sales with Missing Value 


Name 

Kevin Lee 
Faith May 
Jackson Cook 
Hailey Leonard 
JacK Smith 


2. 求 每 个 BY 组 的 总 和 


ETO01 
EDOO2 
上 1004 
ECO02 
EDO04 


图 3.25 


TS30 
CSG 
T5300 
C30 
Qo 


例 3.20 打 印 的 输出 数据 集 内 容 


$10.000 
$12,000 


$23.000 
5.000 


Emp_ID | Dept Sales Total_Sales 


$10,000 
$22.000 
$22,000 
$45,000 
$50,000 


前 面 提 到 过 ，SAS 会 为 BY 语句 中 指定 的 每 个 变量 生成 临时 变量 FIRST. 变 量 和 LAST. 变 量 。 在 分 组 数据 中 ， 可 以 使 用 这 两 组 临时 变量 计算 每 个 分 组 中 变量 值 的 总 和 。 


例 3.21: 数据 集 sashelp.shoes 中 的 观测 已 经 按照 地 区 (Region) 、 附 属 品牌 (Subsidiary) 进行 了 排序 。 现 在 分 别 计算 各 地 区 各 附属 品牌 的 销售 额 总 和 。 


代码 如 下 : 








set sashelp.shoes (keep=Region Subsidiary Sales); 
by Region Subsidiary; 
if First.Subsidiary then 
Total Sales Subsidiary=0; 
Total Sales SubsidiarytSales; 
if Last.Subsidiary; 
format Total Sales Subsidiary DOLLAR10.; 


























代码 说 明 如 下 : 


“ 在 SET 语 句 中 ， 数 据 集 选 项 KEEP= 指 定 仅 读 取 输 入 数据 集中 的 变量 Region、Subsidiary 和 Sales。 


“ 在 BY 语 名 中， 指定 BY 变量 Region 和 Subsidiaty。 要 求 SET 语句 中 的 数据 集 已 经 按照 Region 和 Subsiqiaty 排 序 。SAS 自 动 生 成 临时 变量 FitstRegion、LastRegion、Fitst,Subsidiaty 和 Last.Subsidiary。 其 中 


First.Region、Last.Region 在 本 例 中 未 用 到 。 


. 因为 需要 计算 各 附属 品牌 的 总 销售 额 ， 所 以 每 次 出 现 新 品牌 (First.Subsidiary 为 1) 时 将 累加 变量 ， 并 将 Total_Sales_Subsidiary 置 为 0。 


“ 求 和 语句 将 对 Sales 值 进行 累加 ， 结 果 存 储 在 Total_Sales_Subsidqiatry 中 。 


当 Subsidaty 的 值 为 该 分 组 内 最 后 一 个 值 (Last.Subsidiary 为 1) 时 ， 才 将 当前 输出 PDV 中 的 观测 输出 ， 此 时 Total_Sales_Subsidiaty 为 该 品牌 的 总 销售 窗 


和 和 Total_Sales_Subsidiary。 


。 当 前 输出 PDV 中 的 变量 为 Region、Subsidiaty、Sales 


. 由 于 输出 观测 中 的 变量 Sales 为 每 个 分 组 内 最 后 一 个 产品 的 销售 额 ， 没 有 意义 ， 因 此 在 DATA 语 名 中 使 用 数据 集 选项 DROP= 指 明 不 将 变量 Sales 写 入 输出 数据 集 wotk.shoes_subsidiary。 


此 外 ，FORMAT 语 和 句 在 编译 时 指定 累加 变量 Total_Sales_Subsidiary 的 输出 格式 为 DOLLAR10.。 


所 生成 的 work.shoes_subsidiary 在 VIEWTABLE 窗 口中 打开 如 图 3.26 所 示 。 


DU” VIFTTABLE: Tork. Shoes ubai di ary 


Lanada 
Larada 
Larnada 


Lanada 


Addis baba 
名 | 可 [有 
Cao 
Johannesbura 
Khartoum 
Knshass 
Luanda 
Narob 
Bangkak 
Saou 
Tokyo 
Lalgary 

hi ontreal 
Ditawa 
Toronmto 


图 3.26 ” 例 3.21 输 出 数据 集 部 分 内 容 


3. 使 用 RETAIN 语 句 保持 变量 值 


395.600 
$738,138 
$113.008 
中 186.592 
$196,816 
$138.115 
$106.830 
$16.667 
$42.409 
$1.155 
$61.403 
DR- 
$119.741 
中. 





默认 情况 下 ，DATA 步 中 所 有 变量 在 每 次 迭代 开始 前 都 会 被 设置 为 缺失 值 。 而 RETAIN 语 句 中 指定 的 变量 则 不 会 ， 其 值 会 一 直 保 持 着 ， 在 下 次 迭代 中 仍然 可 以 使 用 。RETAIN 语 句 的 基本 形式 如 下 : 























其 中 : 


:元素 列表 指定 要 在 历次 选 代 中 保持 其 值 的 变量 名 、 变 量 列 表 或 数组 名 。 


` 初始 值 或 初始 值 列 表 为 其 前 面 的 元 素 指定 的 初 值 ( 为 数字 或 字符 ) 。 当 指定 一 个 初始 值 时 ， 该 初始 值 被 指定 为 其 前 面 元 素 列 表 中 的 所 有 元 素 的 初 值 。 若 指定 的 是 初始 值 列表 (多 个 初始 值 ) ， 
将 该 列表 中 的 第 一 个 值 指定 给 第 一 个 元 素 ， 第 二 个 值 指 定 给 第 二 个 元 素 ， 依 此 类 推 。 当 未 指定 初始 值 或 初始 值 列表 时 ， 其 前 面 的 元 素 的 初始 值 为 缺失 值 。 


例 3.22: 基于 数据 集 saslib.sales， 使 用 RETAIN 语 句 和 赋值 语句 计算 公司 产品 全 年 总 销售 额 。 


示例 代码 如 下 : 











RETAIN 元 素 列 表 1 < 初始 值 1 | 初始 值 列 表 1> <http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressedq/150927OE] 


BPS/Text/.. .元 素 列表 n < 初始 n | 初始 值 列表 n> :> 





data work.sales retain; 
set saslib.sales; 





SAS 会 


retain Total Sales 0; 
Total Sales=Total SalestSales; 
format Total Sales DOLLAR10.; 
































run; 
proc print data=work.sales retain noobs; 
run; 











RETAIN 语 句 将 Total_Sales 的 初 值 设置 为 0%， 并 告诉 SAS 在 每 次 迭代 中 保持 Total_Sales 的 值 。 接 下 来 的 赋值 语句 将 上 次 迭代 中 计算 得 到 的 Total_Sales 值 与 当前 观测 中 Sales 的 值 相 加 ， 结 果 存 储 在 
Total_Sales 中 。PRINT 语 句 打 印 输出 数据 集 的 内 容 如 图 3.27 所 示 。 


Name Emp _ID Dept Sales Total Sales 
Kevin Lee ETOO1 | TS$G | $10,000 $10,000 
Falth May EDO02 CSG | $12,000 $22,000 
Jackson Cook | ETO04 | TSG ‘$18.000 $40 000 
Hailey Leonard | EC002 | CSG | $23,000 $63,000 
Jack Smith EDO04 QSG | $5,000 $68,000 


图 3.27 例 3.22 打 印 的 输出 数据 集 内 容 


该 例 使 用 的 数据 saslib.sales 中 变量 Sales 没 有 缺失 值 。 如 果 Sales 中 存在 缺失 值 ， 那 么 赋值 语句 中 表达 式 (Total_Sales+Sales) 的 结果 也 为 缺失 值 ， 这 样 会 导致 当前 及 其 后 所 有 和 迭代 中 Total_sales 的 值 都 
为 缺失 值 。 读 者 可 人 在 SET 语句 中 使 用 例 3.20 中 使 用 的 带 缺 失 值 的 数据 集 saslib.sales2， 并 查看 其 生成 数据 集 的 内 容 。 当 数据 值 中 包含 缺失 值 时 ， 还 可 以 使 用 SUM 函 数 对 变量 求 和 ， 该 函数 只 会 计算 非 缺失 值 的 
和 ， 具 体 的 接 下 来 会 介绍 。 


此 外 ， 使 用 RETAIN 语 句 还 需要 注意 的 是 ， 如 果 该 变量 名 仅 在 RETAIN 语 句 中 出 现 ， 并 且 RETAIN 语 句 中 未 对 其 赋 初 值 ， 则 该 变量 不 会 写 入 输出 数据 集中 。 反 之 ， 如 果 RETAIN 语 句 中 给 出 了 变量 初始 值 ， 
即使 该 变量 仅 在 RETAIN 语 句 中 出 现 ， 该 变量 也 会 写 入 输出 数据 集 。 


4. 使 用 SUM 函 数 


SUM 函 数 返 回 非 缺失 值 参 数 的 和 。SUM 函数 的 基本 形式 如 下 : 











SUM (参数 ， 参 数 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/...); 














该 求 和 语句 等 效 于 RETAIN 语 句 和 SUM 遂 数 的 组 合 。 其 中 ， 参 数 指定 为 数字 常量 、 数 字 变 量 或 数字 表达 式 。 如 果 参 数 中 包含 缺失 值 ， 且 所 有 参数 都 是 缺失 值 ， 则 返回 缺失 值 ， 若 任 一 参数 不 是 缺失 值 ， 
则 返回 非 缺 失 值 参数 的 总 和 和 。 与 求 和 语句 不 同 ，SUM 函 数 不 会 保持 任何 变量 的 值 ， 所 以 如 果 要 想 保持 的 变量 ， 应 该 使 用 RETAIN 语 句 。 


例 3.23: 基于 数据 集 saslib.sales， 计 算 公 司 产品 全 年 总 销售 额 。 


示例 代码 如 下 : 





data work.sales sumfunc; 
set saslib.sales; 
retain Total Sales 0; 
Total Sales=sum(Total Sales,Sales); 
format Total Sales DOLLAR10.; 



































所 生成 的 数据 集 work.sales sumfunc 的 数据 和 例 3.22 一 样 。 


3.4 ”循环 和 数组 

SAS 还 提供 了 循环 语句 以 满足 在 编程 中 需要 多 次 执行 相同 操作 的 情况 。 有 时 还 需要 对 不 同 的 变量 执行 相同 的 操作 ， 此 时 可 定义 SAS 数 组 ， 并 通过 数组 名 和 下 标 来 引用 这 些 变量 。 
3.4.1 循环 

SAS 循 环 语句 通常 有 如 下 几 种 形式 : 迭代 DO 语句 、DO WHILE 语句 和 DO UNTIL 语 句 。 


1. 迭 代 DO 语 句 


迭代 DO 语句 的 基本 形式 如 下 : 











DO 台 值 <TO 结束 值 > <BY 递 进 值 > <WHILE (表达 式 ) > <UNTIL (表达 式 ) >; 
..，SAS 语 句 .. 
END; 























` 索引 变量 用 于 指定 一 个 变量 ， 若 该 变量 不 存在 ， 则 创建 新 变量 。DO 语 名 和 END 语 名 之 间 的 语句 称 为 DO 组 ， 索 引 变 量 的 值 会 控制 DO 组 的 执行 。 


开始 值 指 定 索引 变量 的 初始 值 ， 可 以 是 表达 式 或 表达 式 序列 。DO 组 的 执行 从 “索引 变量 = 开始 值 ” 开 始 。 在 循环 的 第 一 个 迁 代 开始 前 ， 对 开始 值 求 值 。 如 果 结 束 值 和 递 进 值 不 存在 ， 那 么 开始 值 可 能 
是 一 系列 项 ， 则 DO 语句 的 形式 如 下 。 


DO 索引 变量 = 项 1 <，.. 项 n>; 





项 1~ 项 n 可 以 是 数字 常量 、 字 符 常 量 或 变量 。SAS 为 列表 中 的 每 个 项 执行 一 次 DO 组 。 


“ 结束 值 指 定 索引 变量 的 结束 值 。 当 开始 值 和 结束 值 都 存在 时 ，DO 组 执行 直到 下 面 任意 一 种 情况 发 生 时 循环 执行 结束 : 索引 变量 的 值 超过 结束 值 ; DO 组 中 存在 指示 退出 循环 的 语句 ， 例 如 LEAVE 语 
句 、GO TO 语句 ; 如 果 有 WHILE 或 UNTIL 选 项 ， 则 WHILE 之 后 的 表达 式 不 满足 或 UNTIL 之 后 的 表达 式 满足 (可 参考 后 面 对 DO UNTIL 语 句 和 DO WHILE 语句 的 介绍 ) 。 


` 递 进 值 指定 一 个 数字 ， 或 者 是 产生 数字 值 的 表达 式 ， 来 控制 索引 变量 的 增 量 。 递 进 值 在 循环 执行 前 进行 计算 。 因 此 ， 在 DO 组 内 对 递 进 值 的 修改 不 会 影响 循环 选 代 次 数 。 每 次 迭代 后 ， 索 引 变 量 的 值 为 
其 当前 值 的 基础 上 增加 递 进 值 。 如 果 未 指定 递 进 值 ， 则 索引 变量 的 值 增加 1。 


例 3.24: 使 用 DO 循环 生成 数据 集 ， 数 据 集中 包含 两 个 变量 x 和 y。x 的 值 为 1、3、5，y 为 x 的 平方 。 


代码 如 下 : 


data work.square; 
do x=1] to 5 by 2; 
y=x**2; 
output; 
end; 
run; 
proc print data=work.squart noobs; 
runy 





PRINT 过 程 打 印 生成 的 数据 集 的 内 容 如 图 3.28 所 示 。 





图 3.28 ” 例 3.24 打 印 数据 集 内 容 


2.DO UNTIL 语 各 
DO UNTIL 语 句 重 复 执行 DO 循环 中 的 语句 ， 直 到 条 件 为 真 。DO UNTIL 语 句 的 基本 形式 如 下 : 


DO UNTIL (表达 式 ) ; 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/...SAS 语 句 http://www.hzcourse.com/resource/readBook?path=/openresour 




















END; 








表达 式 可 是 任意 的 SAS 表 达 式 。DO UNTIL 语 句 中 至 少 包 含 一 个 表达 式 ， 也 可 以 包含 多 个 表达 式 。 在 DO 循环 中 的 语句 执行 完成 后 将 对 表达 式 求 值 。 所 以 ，DO 循 环 至 少 被 执行 一 次 。 
例 3.25: 将 给 定 字 符 串 中 包含 的 各 个 单词 分 开 写 入 数据 集中 。 


在 DO 循环 中 使 用 SCAN 水 数 依 次 读 取 字符 串 中 的 单词 ， 并 存储 在 变量 word 中 且 输 出 。LENGTHN 逊 数 用 于 判断 循环 结束 的 标志 。 当 SCAN 冰 数 扫描 到 字符 串 结尾 ，word 值 为 空 时 ，LENGTHN 遂 数 返回 
循环 结束 。 代 码 如 下 : 


OO 





data work.all; 
length word $20; 
drop string; 
string='The quick brown fox jumps over the lazy dog.'; 
do until (lengthn (word)=0); 
Count+13 
word=scan (string, count); 
Outputy> 











engd; 
run; 
proc print data=work.all noobs; 
run; 











PRINT 过 程 打 印字 符 串 中 各 个 单词 的 内 容 如 图 3.29 所 示 。 











2 
3 
| 























图 3.29 ” 例 3.25 打 印 数 据 集 内 容 


3.DO WHILE 语句 


DO WHILE 语句 在 条 件 为 真 时 重复 执行 DO 循环 。DO WHILE 语句 的 基本 形式 如 下 : 





DO WHILE (表达 式 ) ; 
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END; 








表达 式 可 是 任意 的 SAS 表 达 式 。DO UNTIL 语 句 中 至 少 包 含 一 个 表达 式 ， 也 可 以 包含 多 个 表达 式 。 在 DO 循环 中 的 语句 被 执行 前 先 对 表达 式 求 值 。 如 果 第 一 次 执行 时 表达 式 为 假 (false) ，DO 循 环 不 会 


被 执行 。 
例 3.26: 将 给 定 字符 串 中 包含 的 各 个 单词 分 开 写 入 数据 集中 。 


代码 如 下 : 





data work.all; 
length word $20; 
drop string; 
string=" "7 


word=scan (string, 工 ) 
do while (lengthn (word) >0) ， 
count+1; 
word=scan (string, count); 
output; 
end; 
ruin; 





因为 要 WHILE 表达 式 必 须 成 立 才 会 执行 DO 循环 ， 也 就 是 说 在 执行 到 DO WHILE 语句 之 前 ，word 不 能 为 空 或 缺失 值 ， 所 以 代码 中 先 对 word 值 赋值 (word 可 以 赋值 为 其 他 任何 不 为 空 的 字符 值 ) 。DO 循 
环 中 ， 当 SCAN 函 数 扫 描 到 字符 串 结 尾 ，word 值 为 空 时 ，LENGTHN 函 数 返回 9， 不 满足 条 件 lengthn (word) >0， 循 环 结束 。 所 生成 的 数据 集 与 例 3.25 的 结果 一 样 ， 这 里 不 再 给 出 。 


下 面 是 对 3 种 循环 语句 的 比较 : 
` 选 代 DO 语句 基于 索引 变量 值 重 复 执行 DO 语 旬 和 END 语 多 之 间 的 SAS 语 多。 使 用 和 迭代 DO 语句 较 容 易 控 制 循环 次 数 。 


. DO UNTIL 语 和 句 重复 执行 在 DO 循环 中 的 语句 ， 直 到 条 件 为 真 。DO UNTIL 语 名 在 每 次 DO 循环 迭代 结束 后 检查 条 件 。 


.DO WHILE 语 和 句 在 条 件 为 真 时 重复 执行 DO 循环 中 的 语句 。DO WHILE 语句 在 每 次 DO 循环 选 代 开 始 前 检查 条 件 。 
3.4.2 ”SAS 数组 


如 果 需 要 对 许多 变量 做 相同 的 操作 ， 虽 然 可 以 通过 写 一 系列 赋值 语句 来 实现 ， 但 是 使 用 数组 会 简化 程序 代码 。 


数组 是 一 组 以 特殊 顺序 排列 并 由 数组 名 标识 的 SA 变量 。 只 要 一 组 变量 名 都 是 同一 类 型 ， 例 如 都 是 数值 型 或 字符 型 ， 就 可 以 为 该 组 变量 定义 一 个 数组 。 这 些 变量 可 以 是 数据 集中 已 经 存在 的 ， 也 可 以 是 
要 创建 的 新 变量 。 数 组 仅仅 在 当前 DATA 步 中 存在 ， 在 同一 DATA 步 中 ， 数 组 按 名 字 区 分 。SAS 数 组 不 是 一 种 数据 结构 ， 只 是 临时 标识 一 组 变量 较 方便 的 方法 ， 在 这 点 上 SAS 数 组 不 同 于 其 他 编程 语言 中 的 数 
组 。 
1. 数 组 定义 及 引用 


在 DATA 步 中 使 用 ARRAY 语 名 定义 数组 。 定 义 数组 的 基本 形式 如 下 : 








ARRAY 数组 名 {下 标 } <$> < 长 度 > < 数组 元 素 > < (初始 值 列 表 ) > 
其 中 : 


* 数组 名 是 指定 给 数组 的 名 称 。 该 数组 名 在 同一 DATA 步 中 不 能 与 任何 其 他 变量 名 或 关键 字 重 名 。 其 命名 需 遵 循 SAS 变 量 的 命名 规范 《不 超过 32 个 字符 ， 以 字母 或 下 划 线 开始 ， 可 包含 字母 、 数 字 和 下 划 
线 ) o 


下 标 可 以 有 多 种 形式 ， 通 常 为 指定 数组 元 素 个 数 、 上 下 边界 或 *。* 表 示 通 过 计算 数组 元 素 个 数 确 定数 组 下 标 。 
. $ 指 定数 组 中 的 元 素 是 字符 元 素 。 如 果 数 组 元 素 是 数字 元 素 或 先前 已 经 定义 的 字符 元 素 ， 则 不 需要 使 用 $。 

* 长度 指 定 先前 未 指定 长 度 的 元 素 的 长 度 。 

数组 元 素 指定 组 成 数组 的 元 素 名 称 。 

初始 值 列表 给 出 数组 中 对 应 元 素 的 初始 值 ， 以 空格 隔 开 。 


定义 数组 时 的 括号 可 以 是 () 、 人 {或 0。 定 义 数组 时 的 下 标 形式 指定 了 数组 维度 、 各 个 维度 的 下 边界 和 上 边界 。 还 可 以 通过 不 同 格 式 的 下 标 指定 多 维 数组 ， 多 个 维度 之 间 用 逗号 (，) 分 隔 ， 同 一 个 维度 
内 的 上 下 边界 使 用 冒号 (: ) 分 隅 ， 如 表 3.8 所 示 。 


表 3.8 ”数组 的 维度 、 下 边界 、 上 边界 示例 


数组 定义 
array x {4+ abcd: 


array x {0:S$} abcde: 
array xX {2,11:15} al-al0: 


aIray x {*}abcde: 





数组 元 素 可 以 是 数值 型 或 字符 型 ， 并 且 可 以 以 任何 顺序 列 出 ， 其 个 数 必须 等 于 括号 人 } 中 给 出 的 下 标 值 。 


数组 元 素 可 以 是 已 经 存在 的 变量 或 不 存在 的 变量 ， 当 数组 元 素 是 不 存在 的 变量 时 ，SAS 会 创建 新 变量 。 除 了 列 出 变量 外 ， 变 量 可 以 是 关键 字 NUMERIC_ 、_CHARACTER 或 ALL ， 其 说 明 如 表 3.9 所 


示 . 
表 3.9 ”数组 定义 中 使 用 NUMERIC 、_CHARACTER 或 ALL_ 
数组 定义 说 明 
afTay num{*} NUMERIC : 定义 数组 nnm， 其 元 素 包 含 所 有 数值 型 变量 
array char var{*} CHARACTER : 定义 数组 char var， 其 元 杂 包 含有 所 有 字 和 付 型 变 1 


i 
J 者 


县 
array all var{*} _ALL : 定义 数组 all_var， 其 元 素 包 含有 所有 变量 。 要 求 了 所 有 变量 必须 是 同一 类 型 


还 可 使 用 关键 字 TEMPORARY 来 创建 临时 数据 元 素 。 临 时 数据 元 素 不 会 出 现在 输出 数据 集中 ， 并 且 其 值 总 是 自动 保持 ， 而 不 会 在 DATA 步 的 每 次 迭代 开始 时 自动 设置 为 缺失 值 。 临 时 数组 元 素 仪 用 于 
计算 ， 如果 要 保留 计算 结果 ， 需 要 将 结果 赋值 给 其 他 变量 。 使 用 临时 数组 元 素 的 好 处 是 可 以 提高 性 能 。 


使 用 数组 名 引用 变量 时 ， 要 给 出 数组 名 和 该 变量 的 下 标 。 例 如 ， 使 用 如 下 ARRAY 语 名 定义 变量 STORE， 共 4 个 元 素 ， 分 别 为 变量 Macys、Penneys、sears 和 Target。 





array Store {4} Macys Penneys Sears Target; 


使 用 数组 名 引用 变量 时 ，STORE{1} 是 变量 Macys，STORE{2} 是 Penneys，STORE{3} 是 Sears，STORE{ 人 是 Target。 


如 果 定义 数组 时 指定 了 上 下 边界 ， 例 如 : 





array Month {4:6} April May June; 


则 Month 人 4} 是 变量 April|，Month{5} 是 变量 May，Month{6} 是 变量 June。 

这 样 就 可 以 在 循环 中 通过 改变 数组 下 标 来 操作 每 个 数组 元 素 对 应 的 变量 ， 所 以 数组 经 常 在 DO 组 中 使 用 ， 后 面 会 介绍 。 
2. 数 组 函数 

SAs 提 供 了 DIM、HBOUND 和 LBOUND 函 数 返回 数组 中 指定 维度 的 元 素 个 数 、 上 边界 和 下 边界 。 


DIM 冰 数 返回 一 维 数组 中 的 元 素 个 数 或 多 维 数组 中 指定 维度 中 的 元 素 个 数 。 其 形式 如 下 : 





DIM<n> (数组 名 ) 








或 





IM (数组 名 ， 维度 ) 


局 








HBOUND 冰 数 返回 一 维 数组 的 上 边界 或 多 维 数 组 中 指定 维度 的 上 边界 。 其 形式 如 下 : 





HBOUND<n> (数组 名 ) 





或 





HBOUND (数组 名 ， 维 度 ) 





LBOUND 函 数 返回 一 维 数组 的 下 边界 或 多 维 数组 中 指定 维度 的 下 边界 。 其 形式 如 下 : 








LBOUND<n> (数组 名 ) 


或 


LBOUND (数组 名 ， 维 度 ) 








其 中 : 
: Dn 指 定 维度 的 整 型 常量 。 如 果 未 指定 n 值 ， 则 返回 数组 的 第 一 维 的 结果 。 


数组 名 指定 在 同一 DATA 步 中 先前 定义 的 数组 名 称 。 


例如， 对 于 下 面 的 数组 定义 ， 各 数组 函数 的 返回 值 如 表 3.10 所 示 。 


表 3.10 ”数组 函数 及 返回 值 示例 


请 二 全 
nm 
DDO EE 
HBOUNDGJ 1 





array x {2,11:15} al-al0; 


3.DO 循 环 中 引用 数组 元 素 


将 数组 与 迭代 DO 语句 结合 使 用 ， 在 对 用 数组 所 表示 的 变量 进行 处 理 时 会 变 得 简单 。 其 基本 形式 如 下 : 


DO 索引 变量 =1 TO 数组 元 素 个 数 ; 
..，SAS 语 句 .. 
END; 











例 3.27: 使 用 例 3.18 中 的 数据 集 saslib.revenue_quarter 制 定 明年 的 销售 计划 ， 预 期 各 季度 的 销售 额 为 今年 的 150%。 


代码 如 下 : 





data saslib.revenue 2014; 
set saslib.revenue quarter; 
array Quarter {4} Rev Ol-Rev 0Q4; 
do i=1 to 4; 和 
Quarter{i} = Quarter{i}*1.5; 
end; 
drop i; 





其 中 : 


. ARRAY 语 名 定义 了 数组 Quattef， 其 元 素 个 数 为 4。 因 为 变量 Rev_Q1 到 Rev_Q4 在 输入 数据 集中 存在 ， 所 以 该 数组 只 是 引用 存在 的 变量 Rev_Q1 到 Rev_Q4， 并 不 创建 新 变量 。 这 里 数组 元 素 使 用 了 简化 的 


表达 方式 。 
: 在 DATA 步 的 每 次 迭代 中 ， 通 过 在 DO 循环 中 引用 Quattet{1} 到 Quatrtet{14} 来 分 别 操作 变量 Rev_Q1 到 Rev_Q4， 将 销售 额 在 现 有 销售 数据 的 基础 上 增加 50%。 


数据 集 saslib.revenue_2014 在 VIEWTABLE 窗 口 打 开 如 图 3.30 所 示 。 


Cr VIETTABLE: Saslib Revenue 2014 =|IDIX 


| HuB | REVENUESOURCE | TYPFE | Reval | Revo2 | Reva3 | Revo4 a 


1 
2 
| 
是 
5 
B 
7 
8 
9 


| 一 | 一 下 
| 


Frankhurt 
Frankfurt 
Frankfurt 
Frankhturmt 
Frankfurt 
Frankhurt 
Frankfurt 


| Frankfurt 


Frankfurt 


,| Frankfurt 


Frankhurt 
Frankfurt 
London 
London 


Fraight 
Frarght 
Freight 
Dthver 
Dither 
Dther 
Passengel 
Passenger 
Passengel 
Service 

司 下 [WE 局 
Sarvce 
Frenght 
Frerght 


Diract 
Indirect 
Other 
DIE 
Indirect 
Uther 
Direct 
Indirect 
Uther 
Dmrect 
Irdiract 
Dther 
Dmect 
Irdirect 


$erd.bib 
$119,364 
$36,171 
$45,489 
$2.583 
$9,019 
$1,153,.463 
$158.249 
eeUe.593 
$222,306 
$17.6984 
2114 
$620,06 
$2.0 


$049.451 
和 9.682 
Te 
$45,.489 
$5,166 
$4.019 
$1,.153.463 
$79.124 
和 0,639 
$74.129 
HEB4 
$48,037 
$620.036 
$184.055 


$549.451 
059,682 
$b.171 
$30,324 
$9,166 
$a,009 
$1.730,135 
$237.374 
$101.279 
$222,386 
$17.b54 

种 B.037 
$1,240.073 
$je ler 


$02d. De 
和 59,682 
$edde 
$45,.489 
45,166 
46.023 
$1,153.463 
$158,249 
$151,319 
$149,.257 
$45, 3br 
48.037 

本 620 36 
再 erb.UB3 


| | = 
| | G3 | 


London Frerght Dther $112.733 和 5B.366 $64.549 $28,182 





图 3.30” 例 3.27 输 出 数据 集 部 分 内 容 


3.5 SAS 常用 背 数 


SAS 函 数 是 编程 语言 的 一 个 组 件 ， 可 接受 参数 、 执 行 计 算 或 进行 其 他 操作 并 返回 值 。 返 回 值 是 字符 型 或 数值 型 的 结果 ， 可 用 于 赋值 语句 或 表达 式 中 。SAS 包 含 很 多 函数 ， 也 可 以 自 定义 函数 。 在 BASE 
SAS 软 件 中 ，SAS 函 数 可 用 于 DATA 步 编程 、WHERE 表 达 式 、 宏 语言 语句 、PROC REPORT 和 结构 化 查询 语言 SQL (Structured Query Language) 。 本 节 将 会 介绍 一 些 常用 的 SAs 函 数 。 

CALL 例 程 转变 变量 值 或 执行 其 他 系统 函数 。CALL 例 程 和 函数 相似 ， 不 同 的 是 CALL 例 程 不 能 用 于 赋值 语句 或 表达 式 。 所 有 的 CALL 例 程 都 使 用 CALL 语 句 调用 。 本 书 不 介绍 CALL 例 程 ， 有 兴趣 的 读者 可 参 
考 SAS 帮 助 文档 进行 学 习 。 
3.5.1 ”了 数 语 法 


SAs 函 数 的 形式 如 下 : 


函数 名 (参数 1 <，http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/OEBPS/Text/.. .参数 n>) 
函数 名 (OF 变量 列表 ) 有 
函数 名 (参数 | OF 变量 列表 | OF 数组 名 {*} <http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/OEBPS/Text/...， 参 数 | OF 变量 列表 | OF 数组 名 {* 


























. 参数 可 以 是 变量 名 、 常 量 或 任何 SAS 表 达 式 。 多 个 参数 间 使 用 过 号 (，) 分 隔 。 


: 变量 列表 可 以 是 任何 形式 的 变量 列表 。 多 个 列表 之 间 使 用 空格 分 隔 。 例 如 sum (ofxyz) 、sum (ofxl-x10) 、sum (x,，ofxl-x5yl-y5) 、sum (x，ofxl-x5，ofyl-y5) 。 最 后 两 种 表示 方式 具有 同等 效 


. 数组 名 {*} 指 在 当前 DATA 步 中 已经 定义 的 数组 。 


3.5.2 ” 效 值 函 数 


表 3.11 给 出 了 SAs 常 用 的 数值 操作 的 函数 。 


表 3.11 常用 数值 操作 函数 


SUM( 参数 , 参数 , …) 
MEAN( 参数 1, <.… Ex 数 n>) 
MEDIAN( 值 1. <... 值 n>) 
INT( 参数 ) 

EOE 参数 <, 舍 人 单元 >) 


CEIL( 参数 ) 
FLOOR( 参数 ) 


MAX( 参数 1, 参数 2<, … 参数 n>) 


MIN( 参数 1, 参数 2<, ... 参 类 


说 明 
对 指定 参数 求 和 

返回 算术 平均 值 

返回 所 有 值 的 中 值 

返回 参数 的 整数 值 

对 参数 值 进 行 舍 人 到 最 接近 第 二 个 
返回 大 于 等 于 指定 参数 值 的 最 小 整数 
返回 小 于 等 于 指定 参数 值 的 最 大 整数 
返回 所 有 参数 中 的 最 大 值 
返回 所 有 参数 中 的 最 小 值 


参 类 
cP 


数值 函数 的 使 用 相对 简单 ， 例 3.23 中 给 出 了 使 用 SUM 函 数 的 例子 ， 这 里 不 再 举例 说 明 。 


3.5.3 ”字符 操作 函数 


常用 的 字符 操作 遂 数 如 表 3.12 所 示 。 


LENGTH( 字符 串 ) 


LENGTHN( 字 稚 串 ) 


LEFT( 了 字符 串 ) 
RIGHT( 字符 串 ) 


TRIM( 字符 串 ) 


TRIMN( 字符 串 ) 


STRIP( 字符 串 ) 


INDEX( 源 字符 串 , 目标 字符 串 ) 


< 变量 =>SUBSTR( 字符 串 ， 


SUBSTR( 变量 , 位 置 <, 长 


SCAN( 字符 串 , 计数 <, 字符 列表 


CAT( 项 1<, … 项 n>) 


CATT( 项 1<. … 项 n>)) 


CATS( 项 1<,…: 项 n>) 


CATX( 分 隔行 ,项 1<,…* 项 n>) 


<, 修改 


立 置 <, 长 度 >) 


度 >)= 普 换 字符 串 


(A 


fi 语 之 之 ) 


表 3.12 ”常用 字符 操作 函数 


说 有明 


返回 非 空 字符 串 的 长 度 ， 长 度 不 包括 尾 级 
串 ， 则 返回 1 
返回 非 空 字符 串 的 长 度 ， 长度 不 包括 


串 ， 则 返回 0 


空格 。 厂 


改 指定 的 倍数 


尾 级 空格 。 若 为 


将 字 ln 

将 字符 串 右 对 章 

删除 字符 串 尾 级 空格 。 硅 为 空 字符 串 ， 则 返回 一 个 空格 

删除 字符 串 尾 级 空格 。 硅 为 空 字符 串 ， 则 返回 长 度 为 0 的 字符 串 

删除 字符 串 的 前 导 和 尾 级 空格 。 夺 为 空 字符 串 ， 则 返回 长 度 为 
0 的 字符 串 

在 源 字 符 串 中 搜索 目标 字符 串 ， 并 返回 该 字符 串 第 一 次 出 现 的 
V 置 。 在 没 找到 ， 返 回 0 

(组 ) 
说 。 有 明 

从 字符 串 中 指定 位 置 抽取 指定 长 度 的 字符 串 返回 

将 指定 I 二 开 始 的 指定 长 度 用 等 于 (=) 符号 
右 侧 的 蔡 换 字 符 串 代 直 

从 字符 串 中 返回 第 na 个 单词 的 位 置 ，n 由 计数 指定 

在 不 删除 各 个 项 的 前 导 和 尾 组 空格 的 情 癌 下， 将 各 项 级 联 ， 返 
回 级 联 的 字符 串 。 当 某 个 项 为 数字 值 时 ， 目 动 将 其 转换 为 字符 串 

删除 各 个 项 的 尾 组 空格 后 将 各 项 级 联 ， 返 回 级 联 的 字符 串 。 当 
荣 个 项 为 数字 值 时 ， 进 行 级 联 前 自动 将 其 转换 为 字符 串 


/又 
EA 2 


删除 各 个 项 的 前 导 和 尾 格 后 将 各 项 级 联 ， 


返回 级 联 的 字符 


串 。 当 基 个 项 为 数字 值 时 ， 进 行 级 联 前 自动 将 其 转换 为 字符 串 
网 除 各 项 的 前 导 和 尾 级 空格 后 进行 级 联 ， 并 插入 分 隔 符 ， 返 回 级 
联 的 字符 串 。 当 某 个 项 为 数字 - 值 时 ， 进 行 级 联 前 将 其 转换 为 字符 串 


例 3.28: 将 数据 集 saslib.contact2 中 的 变量 Name 中 的 姓 和 名 分 开 为 Last Name 和 First Name。 


在 例 3.17 中 已 经 使 用 了 SCAN 函 数 将 Full_ Name 中 由 空格 分 隔 的 第 1 个 单词 和 第 2 个 单词 存储 在 了 First Name 和 Last Name 中 ， 本 例 则 使 用 INDEX 和 SUBSTR 函 数 来 完成 该 部 分 功能 


。 例 3.17 中 将 原 变量 


Name 重 命名 为 Full Name 这 部 分 本 例 不 涉及 。 代 码 如 下 : 


data work.contact2; 
set saslib.contact2; 
split=index (Name, ' '); 
First Name=substr (Name,1, split-1); 
Last Name=substr (Name, split+1); 
drop split; 








run; 
proc print data=work.contact2 noobs; 
run; 








PRINT 过 程 打印 输出 数据 集 的 数据 如 图 3.31 所 示 。 


Cusiomer ID Narme 


COO1 Greg William 42 | Manager | Single 14 Bndge St. San Franasco, CA 
COO02 Emily Cooker 33 Sales 42 Rue Marston 

LUU3 Henry Cooper Ofhce Marmed sz Rue Marston Pans 

LU04 Jimmy Cruze 34 Manager | Single 

C005 Adam Smith 45 Sales 111 Clancey Court, NC 


图 3.31 例 3.28 输 出 数据 集 内 容 
这 里 以 DATA 步 中 第 一 次 迭代 的 变量 值 (Name 的 值 为 “Greg William”) 为 例 来 解释 说 明 。 

` 第 一 条 赋值 语句 : INDEX 函 数 返回 该 字符 串 中 空格 的 位 置 5， 并 存储 在 split 中 。 

. 第 二 条 赋值 语句 : 右 侧 SUBSTR 函 数 返回 字符 串 “Greg William” 中 从 第 1 个 字符 开始 到 第 4 (5-1) 个 字符 中 的 字符 事 “Greg” 
“William” 


. 第 三 条 赋值 语句 : 右 侧 SUBSTR 函 数 返回 字符 串 “Greg William” 中 从 第 6 (5+1) 个 字符 开始 剩 下 的 所 有 字符 


加 注意 ”这 里 为 了 便于 理解 ， 在 给 出 变量 的 值 时 未 将 字符 串 中 的 尾 组 空格 列 出 。 例 如 ， 因 为 Full_Name 的 长 度 为 20 个 字符 ， 所 以 所 存储 的 
包含 的 空格 对 理解 字符 串 操 作 非 常 重要 。 


成 > 太太 


字符 


， 并 存储 在 First_Name 中 。 


， 并 存储 在 Last_Name 中 。 


例 3.29: 数据 集 saslib.shop 包 含 各 汽车 经 销 商 的 4S 店 信息 ， 其 中 包括 变量 Street、City、State。 现 在 要 将 这 3 个 变量 组 合成 完整 的 地 址 信息 。 


数据 集 saslib.shop 的 内 容 如 图 3.32 所 示 。 


串 实际 上 是 “Greg William” 


First_Name 
Greg 

Emikhy 

Henry 
Jimmy 


Adam 


Shop Telephone Street City 
Albertson Oldsmobile Chevrolet | (310) 398-5721 | 4114 Sepulveda Blvd. Culver City 
Clippinger Chevrolet Oldsmobile | (626) 339-6261 | 137 W San Bemardino Rd . Covina 
Glendora Chevrolet (909) 394-9899 1959 Auto Center Dr. Glendora 
Huntington Beach Chevrolet Jeep | (714) 841-3999 | 16701 Beach Blvd. Huntington Beach 
Glant Felix Chevrolet (213) 748-6141 | 3330 $ Flgueroa St. Los Angeles 
图 3.32” 例 3.29 输 入 数据 集 内 容 
可 使 用 级 联 操作 符 | 组 合 完整 地 址 ， 应 在 Street、City、State 之 间 使 用 标点 符号 ， 因 为 多 个 空格 字符 在 HTML 中 会 显示 为 一 个 空格 。 这 里 为 了 清楚 ， 


PDF 文 件 使 用 了 SAS 的 输出 交付 系统 ODS (Output Delivery System) ， 在 本 书 第 5 章 会 进行 介绍 。 代 码 如 下 : 


Last Name 


William 
Cooker 
Cooper 
Cruze 


smith 


State | Zip 

CA 90230 
CA 9g91723 
CA 91740 
CA 92b47 
CA 90007 


(后 面 共 8 个 空格 ) 。 字 符 值 中 


将 PRINT 过 程 的 打印 结果 输出 到 PDF 文件 中 。 输 出 








data work.shop fulladdr; 
set saslib.shop (drop=telephone zip); 
Full Address=Street || ", "™ || City || " 
drop Street City State; 





| State; 




















run; 
ods pdf file="c:\sas\data\output\full address.pdf"; 
proc print data=work.shop fulladdr noobs; 

EUN? ， 
ods pdf 

















close; 





PDF 文 件 的 内 容 如 图 3.33 所 示 。 其 中 Full_Address 列 的 地 址 中 包含 很 多 空格 。 这 是 因为 原 数据 集中 的 变量 Street 和 City 数 据 值 的 长 度 小 于 变量 的 长 度 ， 这 时 SAS 会 在 数据 值 后 补充 空格 以 达到 给 定 变 
度 。 以 数据 集 saslib.shop 中 的 第 一 个 观测 为 例 。 变 量 City 的 长 度 定 义 为 20， 第 一 个 观测 中 City 的 值 实际 为 “Culver City”。 对 Street 也 是 相同 的 情况 。 因 为 State 的 长 度 是 2， 所 以 其 后 不 会 存在 空格 。 


量 长 








4114 Sepulveda Blvd. 
137 W San Bemardino Rd. 


Glendora Chevrolet 1959 Auto Center Dr. 
Huntington Beach Chevrolet Jeep | 16701 Beach Blvd. 





图 3.33 例 3.29 生 成 PDF 文件 内 容 


例 3.30: 使 用 TRIM 遂 数 将 各 字符 变量 尾 级 空格 删除 ， 并 将 其 进行 级 联 产 生 完整 的 地 址 信息 。 


因为 这 里 的 State 长 度 为 2， 也 可 以 不 对 state 变 量 使 用 TRIM 阔 数 。 代 码 如 下 : 








data work.shop fulladdr; 
set saslib.shop (drop=telephone zip); 
Full Address=trim(Street) || "™, ™ || trim(City) || ", " || trim(State); 
drop Street City State; 











run; 
ods pqf file="c:\full address.pdf"; 

proc print data=work.shop fulladdr noobs; 
run; 加 
ods pdf 








close; 


所 生成 的 PDF 文件 的 内 容 如 图 3.34 所 示 ， 变 量 Full Address 列 中 没有 多 余 的 空格 。 


Albertson Oldsmoble Chevrolet 4114 Sepulveda Blvd., Culver Ciy, CA 
137 W San Bemardino Rd., Covina, CA 
1959 Auto Center Dr., Glendora, CA 

Huntington Beach Chevrolet Jeep | 16701 Beach Blvd., Huntngton Beach, CA 





5S FOUueroa St., Los Angeles, CA 


图 3.34 删除 了 空格 的 数据 


例 3.31: 直接 使 用 CATX 函 数 删除 各 字符 变量 值 的 尾 缀 空格 ， 并 将 其 进行 级 联 产生 完整 的 地 址 信息 。 


CATX 函 数 也 可 以 删除 字符 串 的 前 导 空 格 ， 虽 然 本 例 中 字符 串 不 含 前 导 空 格 。 代 码 如 下 : 





data work.shop fulladdr; 
set saslib.shop (drop=telephone zip); 
Full Address2=CATX(", ", Street, City, State); 
drop Street City State; 











run; 
ods pdf file="c:\full address.pdf"; 
proc print data=work.shop fulladdr noobs; 
run; 
ods pdf close; 























所 产生 的 数据 集 与 上 例 相 同 ， 这 里 不 再 给 出 。 


3.5.4 数值 与 字符 转换 函数 


在 介绍 表达 式 的 时 候 介 绍 过 ， 当 代码 中 给 出 的 值 与 所 需要 的 类 型 不 匹配 时 ， 例 如 ， 在 需要 数字 值 的 地 方 使 用 了 字符 变量 ，SASs 会 试图 自动 将 该 值 转换 成 所 期 望 的 类 型 ， 但 是 ， 自 动 转换 有 时 候 会 出 错 或 
产生 意外 的 结果 。SAs 提 供 了 PUT 和 INPUT 函 数 进行 显 式 类 型 转换 。 这 两 个 函数 很 有 用 ， 即 使 有 些 情况 自动 转换 能 够 处 理 ， 使 用 显 式 类 型 转换 也 会 更 有 效率 。 


1.PUT 函 数 


PUT 函 数 使 用 指定 的 格式 返回 值 ， 可 用 于 将 数字 值 转换 成 字符 值 。 其 基本 形式 如 下 : 


PUT ( 源 ， 格 式 ) 





其 中 ， 源 为 要 进行 重新 格式 化 的 常量 、 变 量 或 表达 式 ， 可 以 是 字符 型 或 数值 型 。 格 式 为 要 应 用 在 源 上 的 SAs 格 式 。 PUT 函数 可 用 于 将 数字 根据 格式 转换 为 字符 或 将 字符 值 转换 为 其 他 字符 。 默 认 情 况 
下 ， 如 果 源 是 数值 型 ， 结 果 字 符 串 会 向 右 对 齐 ， 如 果 源 是 字符 型 ， 则 结果 字符 串 会 向 左 对 齐 。 也 可 以 在 格式 中 添加 对 齐 标识 -L、-C、-R 分 别 表示 左 对 齐 、 居 中 或 右 对 齐 ， 改 变 默 认 对 齐 方式 。 格 式 必须 与 源 


的 类 型 一 致 。 也 就 是 说 ， 如 果 源 是 字符 ， 格 式 名 必须 以 $ 符 号 开始 ; 如 果 源 是 数字 ， 格 式 则 不 能 以 $ 开 始 。PUT 函 数 不 影 响 数据 集中 的 变量 格式 或 属性 。 


例 3.32: 在 对 总 公司 的 多 个 子 公 司 员工 信息 进行 合并 时 ， 发 现 某 个 子 公 司 员工 数据 中 的 员工 ID 为 数字 值 ， 而 其 他 子 公司 员工 数据 中 的 员工 ID 为 字符 值 ， 这 时 需要 将 该 子 公司 员 工 1D 的 数字 转换 成 字符 
型 ， 以 便 进 行 合并 操作 。 


该 子 公司 员 工 信 息 保存 在 saslib.employee2 中 ， 使 用 PUT 函数 对 FEmp_ID 的 数值 进行 转换 ， 并 创建 新 的 字符 型 变量 New_Emp_ID， 同 时 ， 使 用 DROP 语 句 将 原始 变量 Emp_ID 删 除 ， 之 后 再 使 用 RENAME 
语句 将 New_Emp_ID 改 名 为 Emp_ID。 这 样 ， 所 生成 数据 集中 包含 的 变量 名 就 会 保持 不 变 。 该 过 程 很 容易 理解 ， 这 里 不 再 给 出 数据 示例 进行 讲解 。 相 关 代码 如 下 : 


data saslib.employee2; 
set saslib.employee2; 
New FEmp ID=put (Emp ID, best10.); 
drop Emp ID; 
rename New Emp ID=Emp ID; 
run; 3 





















































2.INPUT 国 数 


INPUT 函 数 返回 当 SAS 使 用 指定 输入 格式 转换 SAS 值 之 后 的 结果 。 其 基本 形式 如 下 : 





INPUT ( 源 ， 输 入 格式 ) 








其 中 ， 源 为 要 应 用 输入 格式 的 字符 常量 、 字 符 变量 或 字符 表达 式 。 格 式 为 要 应 用 在 源 上 的 SAS 输 入 格式 。 


INPUT 函 数 会 将 源 的 值 使 用 指定 的 输入 格式 进行 转换 。1INPUT 函 数 可 用 于 将 字符 值 转换 为 数字 值 或 其 他 字符 值 。 输 入 格式 指定 了 结果 是 数值 型 还 是 字符 型 。INPUT 函 数 也 不 影响 数据 集中 的 变量 输入 格 


例 3.33: 数据 集 saslib.sales 中 的 日 期 值 (Date) 以 字符 方式 进行 存储 ， 其 数据 内 容 和 变量 的 属性 如 图 3.35 和 图 3.36 所 示 。 





Date 





Emp ID Dept | Sales 





FTUU1 12G | 10000 | 01JAN2012 
FDUU2 | oob | 12000 | 01FEEB2U12 
E1004 1SG 32000 | 02MAR2012 
ELUU2 | CSO | 23000 | 01APR2012 


图 3.35” 例 3.33 中 输入 数据 集 数据 值 





图 3.36” 例 3.33 中 输入 数据 集 变 量 描述 


公司 需要 对 员工 入 职 日 期 进行 排序 ， 首 先 要 将 日 期 值 (Date) 转换 为 数字 。 这 里 使 用 NPUT 函 数 ， 并 使 用 输入 格式 date9. 将 字符 格式 的 日 期 值 (例如 “01JAN2012”) 转换 为 该 日 期 对 应 的 数字 进行 存 


诸 。 代 码 如 下 : 


data saslib.sales; 
set saslib.sales; 
Num Date=input (Date, date9.); 
drop Date; 
rename Num Date=Date; 
run; 
proc print data=saslib.sales noobs; 
run; 
proc contents data=saslib.sales; 
run; 








PRINT 过 程 和 CONTENTS 过 程 打 印 的 数据 集 内 容 和 属性 如 图 3.37 和 图 3.38 所 示 。 而 且 Date 变 量 的 类 型 为 数值 型 ， 这 样 就 可 以 根据 Date 值 对 整个 数据 集 进 行 排 序 了 。 








18993 
19024 
19024 
19084 








3 | Sales 


图 3.38 ” 例 3.33 输 出 数据 集 变量 描述 


3.5.5 与 日 期 时 间 相 关 的 函数 


SAS 提 供 日 期 (date) 、 时 间 (time) 和 日 期 时 间 (datetime) 函数 从 日 期 、 时 间 和 日 期 时 间 值 中 得 到 年 份 、 月 份 、 日 、 小 时 、 分 钟 、 秒 等 信息 ， 它 们 也 可 以 将 这 些 信息 组 成 SAs 的 日 期 、 时 间 和 日 期 
时 间 值 。 表 3.13 给 出 了 SAs 中 常用 的 与 日 期 、 时 间 相 关 的 函数 。 除 此 之 外 ，SAs 还 提供 对 日 期 的 间隔 进行 操作 的 函数 ， 详 细 情 况 请 参考 SAs 帮 助 文档 。 


表 3.13 ”常用 日 期 时 间 相 关 函 数 


函 数 说 明 
YEAR、MONTH 、DAY 分 别 返 回 SAS 日 期 值 中 的 年 份 、 月 份 和 日 
QTR、 WEEK 分 别 返 回 SAS 日 期 值 中 的 季度 、 周 
HOUR、MINUTE 、SECOND 分 别 返 回 SAS 时 间或 日 期 时 间 值 中 的 小 时 、 分 钟 和 秒 
DATEPART 从 SAS 日 期 时 间 值 中 抽取 日 期 值 
DATE、 TIME、 DATETIME 返回 当前 日 期 值 、 时 间 值 和 日 期 时 间 值 
MDY 根据 月 份 、 日 和 年 份 返回 SAS 日 期 值 
HMS 根据 小 时 、 分 钟 和 秒 返 回 SAS 时 间 值 
DHMS 根据 日 、 小 时 、 分 钟 和 秒 返 回 SAS 日 期 值 


例 3.34: 将 公司 员工 入 职 日 期 中 的 年 份 、 月 份 和 日 分 别提 取出 来 ， 建 立新 的 变量 Year、Month 和 Day。 数 据 集 saslib.employee 的 内 容 参 考 例 3.13。 


代码 如 下 : 





data work.employee ymd; 
set saslib.employee; 
Year = year(Entry Date); 
Month = month (Entry Date); 
Day = day (Entry Date); 
run; 加 

















上 面 分 别 使 用 YEAR 浮 数 、MONTH 函 数 和 DAY 函 数 得 到 原 数 据 集 Entry_Date 中 员工 入 职 年 份 、 月 份 和 日 期 ， 所 生成 的 数据 集 的 内 容 如 图 3.39 所 示 。 
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图 3.39 ” 例 3.34 输 出 数据 集 部 分 数据 值 


3.6 “将 数据 集 写 出 到 外 部 文件 


除了 可 以 在 SAS 环 境 中 对 SAS 数 据 集 进行 加 工 处 理 外 ，SAS 数 据 集 的 数据 还 可 以 导出 到 外 部 文件 中 ， 以 便 在 未 安装 SAS 软 件 的 环境 中 使 用 ，SAS 提 供 了 EXPORT 过 程 来 实现 此 功能 。EXPORT 过 程 可 以 将 
SAS 数 据 集 按照 指定 格式 写 入 外 部 文本 文件 。 当 SAS 安 装 中 存在 SAS/ACCESS to PC Files 许 可 时 ，EXPORT 过 程 还 可 以 读 取 写 入 PC 文件 中 的 外 部 数据 ， 包 括 Microsoft Access 数 据 库 文件 、Miscrosft Excel 
工作 敌 、Lotus 1-2-3 文 件 、dBase 文 件 、JMP 文 件 、SPSS 文 件 、Stata 文 件 和 Paradox 等 。 


本 节 介 绍 如 何 使 用 EXPORT 过 程 将 SAS 数 据 集 导入 常用 的 外 部 文件 ， 例 如 带 分 隔 符 的 文本 文件 和 Microsoft Excel 工 作 簿 。 同 时 ，SAS 还 提供 了 EXPORT 向 导 (选择 菜单 “文件 ” 守 “ 导 出 数据 ”) 通过 图 
形 界面 的 方式 将 SAS 数 据 集中 的 数据 导出 到 上 述 类 型 的 文件 中 。 导 出 过 程 所 生成 的 SAS 语 句 也 可 以 保存 起 来 供 以 后 使 用 。 


EXPORT 过 程 的 基本 形式 如 下 : 


PROC EXPORT 
DATA= 数 据 集 
OUTFILE= 文 件 名 | 文件 引用 | OUTTABLE= 表 名 
DBMS= 数 据 源 标识 符 
































RUN 


其 中 : 
DATA= 指 定 要 导出 的 SAS 数 据 集 。 其 后 可 添加 数据 集 选项 。 
.OUTFILE= 指 定 要 将 SAS 数 据 集中 的 数据 写 入 的 文件 ， 可 以 是 物理 路 径 或 文件 引用 ; OUTTABLE= 指 定 将 SAS 数 据 集 的 内 容 导 入 Mictosoft Access 数 据 库 时 的 表 名 。 
* DBMS 指 定 所 导出 的 数据 类 型 。SAS 支 持 多 种 数据 类 型 ,例如 DLM、CSV、TAB、ACCESS、XILSX、XILS、EXCEL、]JMP、DTA、SPASS 等 。 


其 中 ，DLM、CSV、TAB 表 示 导 出 的 数据 文件 是 分 别 由 指定 字符 (默认 为 空格 ) 、 喜 号 和 制 表 符 分 隔 的 文本 文件 ，ACCESs 表 示 为 使 用 LIBNAME 语 句 的 Miscrosoft Access 表 ; XLSX 表 示 导 出 的 数据 文 
件 为 Micorsoft Excel 2007 或 2010 的 工作 短 。 可 参考 SAs 帮 助 文档 关于 导入 数据 类 型 和 各 类 型 的 详细 信息 。 


在 EXPORT 过 程 中 还 可 以 指定 参数 REPLACE， 表 示 当 该 OUTFILE= 指 定 的 文件 存在 时 覆盖 该 文件 ， 如 果 不 指 定 REPLACE， 则 EXPORT 过 程 不 会 覆盖 已 经 存在 的 文件 。 
1. 导 出 到 带 分 隔 符 的 文件 
SAS 使 用 EXPORT 过 程 将 数据 集中 的 数据 导出 到 带 分 隔 符 的 文件 (包括 DBMS 为 DLM、CSV 和 TAB) 中 时 ， 还 可 指定 表 3.14 中 所 示 的 参数 。 
表 3.14 EXPORT 过 程 的 部 分 常用 参数 
参数 语法 参数 说 明 
PUTNAMES=YES |NO ”|YES 指定 将 SAS 变量 名 作为 列 名 写 人 所 导出 文件 的 第 一 行 , NO 则 不 写 和 人 
DELIMITER='char | mn'x | 指定 单个 字符 或 十 六 进 制 值 作 为 所 导出 的 文件 中 各 列 的 分 隔 符 。 默 认为 空格 


默认 为 YES 


例 3.35: 将 公司 员工 信息 导出 到 文件 中 ， 文 件 各 列 使 用 逗号 (，) 分 隔 。 


代码 如 下 : 





proc export 
data=saslib.employee 
outfile='C:\SAS\data\employee.dat' 
dbms=dlm 
replace; 
delimiter="',"';} 
putnames=no; 














所 导出 的 文件 的 部 分 内 容 如 下 : 











Emp ID,Empb Name,Dept,Title,Entry Date 
ED003,Benjamin Leslie,DSG,Senior Manager,04/26/1993 
EC003, Thomos Oliver,CSG,Senior Analyst,08/01/1998 
ECO011,Adam Scott,CSG,Analyst,11/20/1998 

EC012, Jackson Cook,CSG,Manager,06/07/1998 

EQ002, Sara Duncan,QSsG,Analyst,03/30/1999 









































2. 导 出 到 CSV 文 件 
例 3.36: 将 数据 集 saslib.employee 中 的 文件 导出 到 CSV 文 件 。 


代码 如 下 : 


proc export 
data=saslib.employee 
outfile="C:\SAS\data\employee.csv" 
dbms=CSV; 

run; 











DBMS 为 CSV 会 默认 使 用 逗号 分 隔 所 生成 文件 中 的 各 个 列 。 该 代码 所 生成 的 文件 内 容 与 上 例 相同 ， 这 里 不 再 给 出 。 
还 可 以 将 上 面 代码 中 的 DBMS= 指 定 为 “TAB”， 这 时 会 生成 各 个 列 之 间 由 制 表 符 分 隔 的 文件 。 
3. 使 用 数据 集 选项 导出 部 分 数据 


在 PROC EXPORT 中 还 可 以 使 用 数据 集 选项 导出 部 分 变量 或 部 分 观测 。 


例 3.37: 仅 将 所 有 员工 的 姓名 、 所 在 部 门 和 入 职 日 期 导出 到 CSV 文 件 。 因 为 数据 集 saslib.Employee 中 还 包含 其 他 变量 ， 所 以 使 用 数据 集 选 项 KEEP= 指 定 要 导出 的 变量 。 代 码 如 下 : 


proc export 
data=saslib.employee (keep=Name Dept Entry Date) 
outfile='C:\SAS\data\employee.csyv' 
dbms=CSsV 
replace; 
run; 

















导出 的 文件 部 分 内 容 如 下 : 














Emp ITDEmPp Name,Entry Date 
ED003, BenJjamin Leslie,04/26/1993 
EC003,Thomos Oliver,08/01/1998 
ECO011,Adam Scott,11/20/1998 
EC012, Jackson Cook,06/07/1998 
EQ002, Sara Duncan, 03/30/1999 



































例 3.38: 将 DSG 部 门 的 所 有 员工 信息 导出 到 CSV 文 件 中 。 


代码 如 下 : 


proc export 
data=saslib.employee (where= (Dept="DSG")) 
outfile='c:\sas\data\dsg.csyv' 
dbms=CSsV 
replace; 
run; 














使 用 数据 集 选项 WHERE= 指 定 导 出 满足 条 件 的 观测 。 所 导出 的 文件 的 部 分 内 容 如 下 : 




















Emp ID, Emp Name,Dept,Title,Entry Date 

ED003, Benjamin Leslie,DSG,Senior Manager,04/26/1993 
EDO13,Alexandra May,DSG,Manager,04/11/2000 

ED004, Christian Peters,DSG,Senior Analyst,05/18/2001 
ED011, Hunter Joyce,DSG,Analyst,08/13/2001 

EDO05, Jasmine Rose,DSG,Senior Analyst,11/15/2003 























4. 导 出 到 Microsoft Excel 文 件 


例 3.39: 将 数据 集 saslib.employee 中 的 文件 导出 到 Microsoft Excel 文 件 。 


代码 如 下 : 


proc export 
data=saslib.employee 
outfile="C:\SAS\data\employee.xlsx " 
dbms=xlsx ， 

run? 











所 生成 的 Microsoft Excel 文 件 打开 如 图 3.40 所 示 。 
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图 3.40” 例 3.39 导 出 的 Microsoft Excel 文 件 部 分 内 容 
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本 章 首先 介绍 了 对 单个 数据 集 进行 操作 的 语句 和 选项 ， 包 括 SET 语 句 和 选取 部 分 变量 的 选项 KEEP= 和 DROP= 以 及 KEEP 语 句 和 DROP 语 句 等 ， 并 介绍 了 在 一 个 DATA 步 中 创建 多 个 数据 集 的 操作 方法 ; 接 
下 来 介绍 了 对 数据 集中 观测 和 变量 进行 操作 的 多 种 语句 和 过 程 ， 包 括 使 用 SAS 表 达 式 选取 部 分 观测 、 对 观测 进行 分 组 和 排序 、 使 用 选项 RENAME= 或 RENAME 语 句 更 改变 量 名 称 、 使 用 赋值 语句 创建 新 变量 
等 ; 随后 介绍 了 DATA 步 中 的 循环 语句 和 数组 的 用 法 ， 以 及 SAs 中 常用 的 数值 函数 、 字 符 操 作 函 数 、 数 值 与 字符 转换 函数 和 日 期 时 间 相关 的 函数 等 ; 最 后 一 部 分 介绍 了 如 何 将 数据 集 导 出 生成 多 种 格式 文件 的 
方法 。 


第 4 章 ” 对 多 个 数据 集 的 处 理 


在 前 面 的 章节 中 ， 已 经 介绍 了 对 于 单个 数据 集 的 操作 与 处 理 。 可 在 实际 应 用 中 ， 需 要 处 理 和 分 析 的 数据 往往 来 自 于 多 个 数据 源 ， 甚 至 是 逐 天 逐 月 逐年 累加 起 来 的 。 例 如 一 个 制造 型 企业 ， 人 力 资源 部 门 
会 收集 基本 的 员工 数据 ， 销 售 部 门 会 收集 员工 每 月 的 业绩 数据 和 各 种 产品 每 月 的 销售 数据 ， 生 产 部 门 会 收集 各 种 产品 每 天 的 生产 数据 和 库存 数据 等 。 各 个 部 门 的 数据 通常 都 是 首先 存储 在 不 同 数据 集中 的 ， 
为 了 对 数据 进行 全 面 分 析 ， 常 带 需 要 将 各 种 各 样 的 数据 进行 串 接 、 合 并 、 更 新 与 修改 ， 使 得 决策 分 析 所 使 用 的 数据 具有 更 加 完备 的 信息 。 


在 这 一 章 中 ， 将 介绍 如 何 对 两 个 及 多 个 数据 集 进行 处 理 ， 以 及 对 新 产生 的 数据 集 进 行进 一 步 的 操作 ， 并 且 会 比较 不 同方 法 下 处 理 多 个 数据 集 的 效率 。 最 后 ， 将 简要 介绍 Hash 对 象 及 其 使 用 实例 。 


4.1 数据 集 的 纵 同 串 接 


数据 集 的 纵向 串 接 指 的 是 ， 将 两 个 或 者 多 个 数据 集 首尾 相连 ， 形 成 一 个 新 的 数据 集 。 在 图 4.1 中 ， 将 数据 集 Work.DATA1 和 Work.DATA2 串 接 起 来 ， 形 成 了 数据 集 Work.COMBINED。 
对 数据 集 的 纵向 串 接 可 以 通过 以 下 两 种 方法 实现 : 

“ 使 用 SAS DATA 步 的 SET 语 句 。 

“ 使 用 SAS 过 程 步 的 APPEND 过 程 。 


接 下 来 ， 将 分 别 通 过 实例 来 介绍 这 两 种 方法 。 


4.1.1 使 用 SET 语句 实现 纵向 串 接 


1. 基 本 形式 


使 用 SET 语句 实现 纵向 串 接 的 基本 形式 如 下 : 























DATA 新 数据 集 

SET 数据 入 1 数据 集 2 ”< 数据 集 3 ”数据 集 4 ...>; 
RUN; 
其 中 : 


"SET 语句 中 的 数据 集 1、 数 据 集 2 都 为 输入 数据 集 。 
. 串 接 后 的 数据 存储 在 DATA 语 和 句 的 新 数据 集中 。 


“SET 语句 可 以 同时 读 入 多 个 数据 集 ， 新 数据 集 将 包含 各 输入 数据 集中 的 所 有 变量 。 


COMBINED 








图 4.1 数据 集 纵 向 串 接 图 示 


例 4.1: 对 数据 集 Work.New_Emloyee 和 Work.OIld_Emplyee 进 行 串 接 。 


以 下 代码 创建 了 数据 集 : 





data work.New Employee; 
input Emp ID $ Emp Name $ @@; 
datalines; 
ET001 Jimmy ED003 Emy EC002 Alfred EQ004 Kim 









































run; 
data work.0ld Employee; 
input Emp ID $ Emp Name $ @@; 
datalines; 
EQ122 Molly ET121 Dillon ET123 Helen ED124 John 






































, 
run; 


数据 集 Work.New_Emloyee 和 Work.Old_Emplyee 含 有 相同 的 变量 Emp_ID 和 Emp_Name。 串 接 两 个 数据 集 的 示例 代码 如 下 : 





data work.Employee; 







































































set work.Old Fmployee work.New employee }; 
run; 加 
proc print data=work. Old 2 
title 'Old Employee' 
run; 
proc print data=work.New Employee; 
title 'New Employee'™; 
run; 
proc print data=work .Employee; 
itle 'All Employee'; 
rans 








输出 内 容 如 图 4.2 所 示 。 


Old Employee 


Obs Emp ID Emp Name 
1|EQ122 | Mally 
2 | ET12; 
3 | ET124 
4 | ED123 | John 





Dilhon 


Helen All Employee 


Obs Emp_ID Emp_Name 
EQ122 | Molly 
ET121 “| Dillon 
ET124 
ED123 “| John 


= 一 


New Employee 
Helen 


Obs | Emp ID | Emp Name 


1 | ET001 -| Jimmy 
7 | ED003 | Emy 
3 | ECO02 | Alfred 





ETOO1 


EDOOS 
ECOO2 


EQ004 


Jimmy 
Emy 
Altred 


Kim 


4 EO004 | Kim 


图 4.2 例 4.1 打 印 输 出 数据 集 内 容 
从 输出 内 容 中 可 以 观察 到 新 数据 集 work.Employee 包 含 了 2 个 变量 和 8 条 观测 ，work.Old_Employee 的 观测 直接 加 在 了 work.New_Employee 的 后 面 ， 名 称 相同 的 字段 放 在 同一 变量 下 。 


如 果 Work.New_Employee 和 Work.Old_Emplyee 中 含有 的 变量 不 全 一 致 ， 将 这 两 个 数据 集 进行 串 接 时 ， 情 况 会 是 如 何 呢 ? 以 下 代码 在 Work.New_Emloyee 和 Weork.Old_Emplyee 中 分 别 用 IF 语句 创建 
了 新 变量 Dept 和 Gender。 


data work.New Employee Dept; 
set work.New FEmployee; 
substr (Emp ID,2,1) 
se if substr (Emp ID, 
se if substr (Emp ID, 
se if substr (Emp ID 

















en Dept="TSG"; 

"QO" then Dept="QSG"; 
'D" then Dept="DSG"; 
C" then Dept="CSG"; 












































DO OF 
mh 




















run; 

data work.0ld Employee Gen; 
Set work.Old FEmployee; 

if mod (substr (Emp ID, Length ( (trim(Emp 1D))),1),2)=0 then Gender="F"; 

else Gender="M"; 






































例 4.2: 对 数据 集 Work.New_Emloyee_Dept 和 Work.Old_ Emplyee_Gen 进 行 串 接 。 


示例 代码 如 下 : 








data work.Employee Update; 
set work.Old Fmployee Gen work.New employee Dept; 





工 UL7 
proc print data=work.FEmployee Update; 
title 'All Employee Update'; 

runy 

















输出 内 容 如 图 4.3 所 示 。 


Al|l Emolovee Update 


Dbs Emp ly Emp Name (ender 
EQ122 MAolly F 
ET121 Dillon Mi 
ElT1l24 HH 全 此 中 F 
ED1234 John M 
ETO01 Jirnry TS5G 
EDOOS Ermy DSG 
ECOO2 Alired LS 
EWO0 Km SG 





> = 


= 





图 4.3” 例 4.1 打 印 输出 数据 集 内 容 


新 数据 集 work.Employee Update 和 work.Employee 一 样 含有 8 条 观测 ， 但 是 work.Employee_Update 含 有 4 个 变量 ， 依 次 为 Emp_ID、Emp_Name、Gender 和 Dept。 由 于 work.Old_ Employee Gen 
中 不 含有 Dept， 因 此 串 接 后 前 4 条 观测 的 Dept 都 为 缺失 值 ， 同 样 Gender 在 work.New_Employee_Dept 中 不 存在 ， 串 接 后 的 后 4 条 观测 其 Cender 都 为 缺失 值 。 


熟悉 SAS DATA 步 的 执行 步骤 后 ， 就 不 难 理解 上 述 结 果 了 。 以 下 讲解 SAs 在 遇 到 SET 语句 时 的 执行 步骤 : 


1) 第 一 步 为 编译 阶段 ，SAS 按 照 SET 语 句 中 数据 集 的 排列 顺序 ， 依 次 读 入 各 数据 集中 变量 的 描述 部 分 ， 并 将 各 变量 置 入 PDV。SAS 首 先 从 work.Old_Employee 中 找到 Emp_ID、Emp_Name、 
Gender， 将 它们 置 入 PDV， 然 后 在 work.New_Employee 中 找到 新 的 变量 Gender (Emp_ID 和 Emp_Name 已 经 在 work.Old_Employee 中 出 现 过 ) ， 并 将 它 置 入 PDV。PDV 如 下 : 


Emp 1LD Emp Name Gender Dept 


2) 进入 执行 阶段 ，SAS 按 照 SET 语 句 中 数据 集 的 排列 顺序 ， 依 次 读 入 各 数据 集中 的 观测 。SAS 读 入 work.Old_Employee_Gen 中 的 第 1 条 观测 ， 并 复制 到 PDV 中 ， 由 于 work.Old_Employee_Gen 中 没有 
Dept 变 量 ， 所 以 PDV 中 该 变量 值 为 缺失 值 。PDV 如 下 : 


Emp 1LD Emp Name Gender Dept 





3) SAS 执 行 DATA 步 中 的 其 他 语句 (在 本 例 中 无 其 他 可 执行 语句 ) ， 然 后 将 PDV 中 的 值 写 入 新 数据 集 work.Employee_Update 中 。 同 时 ，PDV 中 保留 从 SAS 数 据 集中 读 入 的 变量 值 。 在 处 理 完 第 一 条 观 
测 后 ，PDV 如 下 : 


Emp ID Emp Name Gender Dept 





4) SAS 读 入 work.Old_Employee_Gen 中 的 第 2 条 观测 ， 并 复制 进 PDV， 覆 盖 PDV 中 各 变量 值 。 如 果 新 读 入 的 观测 中 有 缺失 值 ， 该 缺失 值 也 会 覆盖 PDV 中 原来 的 变量 值 。 此 时 的 PDV 如 下 : 


Emp TD Emp Name Gender Dept 





5) SAS 执 行 DATA 步 中 的 其 他 语句 (在 本 例 中 无 其 他 可 执行 语句 ) ， 然 后 将 PDV 中 的 值 写 入 新 数据 集 work.Employee_Update 中 。 同 时 ，PDV 中 保留 从 SAS 数 据 集中 读 入 的 变量 值 。 在 处 理 完 第 二 条 观 
测 后 ，PDV 如 下 : 


Emp 1D Emp Name Gender Dept 





6) SAS 按 照 同样 的 逻辑 处 理 完 work.Old_Employee_Gen 中 的 所 有 观测 。 


7) SAS 在 开始 读 入 第 二 个 数据 集 work.New_employee_Dept 的 第 一 条 观测 前 ， 将 PDV 初 始 化 ， 将 所 有 变量 值 都 置 为 缺失 。 此 时 PDV 如 下 : 


Emp ID Emp Name Gender Dept 


8) SAS 读 入 work.New_employee_Dept 中 的 第 一 条 观测 ， 并 复制 进 PDV， 同 样 由 于 work.New_employee_Dept 中 没有 Gender 变 量 ， 所 以 PDV 中 该 变量 值 为 缺失 值 。 此 时 PDV 如 下 : 


Emp ID Emp Name Gender Dept 


Jimmy 





然后 执行 DATA 步 中 的 其 他 语句 ， 最 后 将 PDV 中 的 值 写 入 新 数据 集 work.Employee_Update 中 。 同 时 ，PDV 中 保留 了 从 SAS 数 据 集中 读 入 的 变量 值 。 
9) SAs 按 照 同样 的 逻辑 处 理 完 所 有 数据 集中 的 所 有 观测 。 
了 解 了 上 述 步骤 ， 就 很 容易 理解 上 例 中 的 输出 结果 。 


@ 注 意 ”在 开始 读 入 每 一 个 数据 集 的 第 一 条 观测 前 ，SAS 将 对 PDV 进 行 初 始 化 ， 将 其 中 所 有 变量 值 重 置 为 缺失 值 。 这 一 点 很 重要 ， 所 以 在 例 4.2 中 ， 输 出 数据 集 的 后 4 条 观测 中 Gendet 的 取 值 仍然 为 缺失 
值 ， 而 非 沿用 第 4 条 观测 中 Gendet 的 取 值 。 


另外 ， 在 读 入 每 一 个 数据 集 的 循环 过 程 中 ， 由 SAS 数 据 集中 读 入 的 变量 值 将 被 保留 在 PDV 中 ， 直 到 下 一 条 观测 被 复制 进 PDV， 它 才 会 被 新 的 变量 值 和 覆盖 。 而 对 于 DATA 步 中 新 创建 的 变量 ， 在 DATA 步 的 
每 一 个 循环 前 ， 系 统 默认 将 PDV 中 的 值 置 为 缺失 。 如 果 要 使 这 些 变量 值 保留 在 PDV 中 ， 得 使 用 ETAIN 语 句 。 


使 用 RETAIN 语 句 的 基本 形式 为 : 











RETAIN 变量 1 < 变量 2 ”变量 3 ... < 初始 值 >> < 变量 4 变量 3 ...>; 

















RETAIN 语 句 的 初始 值 在 DATA 步 的 编译 阶段 进行 赋值 ， 在 DATA 步 执行 阶段 的 循环 过 程 中 ，RETAIN 语 句 中 变量 的 值 可 以 被 保留 在 PDV 中 ， 并 进入 下 一 个 循环 。 如 果 不 指 定 初始 值 ， 系 统 默认 初始 值 为 缺 
失 值 。 


如 下 语句 将 给 变量 month1、month2、month3、month4、month5 赋 初始 值 为 1， 给 变量 year 赋 值 为 0， 给 变量 a、b、 < 赋值 为 XYZ。 
retain monthi-month5 1 year 0 a b c 'xY2'; 
在 本 章 的 后 面 ， 将 会 结合 例子 介绍 RETAIN 语 句 的 使 用 场景 。 

2. 使 用 BY 语句 进行 穿插 串 接 


在 例 4.2 中 ， 如 果 要 让 串 接 后 的 新 数据 集中 的 8 条 观测 按照 Emp_ID 的 升序 排列 ， 该 如 何 操作 呢 ” 这 时 需要 引入 穿插 串 接 的 概念 。 穿 插 串 接 就 是 使 得 新 数据 集 的 观测 按照 一 定 顺 序 排列 的 串 接 方法 。 


基本 形式 如 下 : 





DATA 新 数据 集 ; 
SET 数据 集 1 ”数据 集 2 < 数据 集 3 数据 集 4  ... >; 


























BY 变量 1 ”< 变量 2 变量 3 变量 Ss 
RUN; 
BY 语句 在 处 理 多 个 数据 集 时 经 常 使 用 ， 为 了 更 好 地 理解 本 章 后 面 的 内 容 ， 这 里 需要 引入 BY 变量 、BY 变 量 组 、BY 变 量 值 和 和 BY 组 合 的 概念 。 


. BY 语句 中 的 变量 称 为 BY 变量 ， 一 个 BY 语句 中 可 以 有 多 个 BY 变量 。 
` 当 BY 语 名 中 有 多 个 变量 时 ， 称 这 些 变量 为 BY 变量 组 。 
BY 变量 值 指 的 是 BY 变量 的 取 值 。 
` BY 组 合 指 的 是 具有 相同 BY 变量 值 的 观测 的 集合 。 当 有 多 个 BY 变量 时 ，BY 组 合 就 是 使 得 所 有 BY 变量 的 取 值 完全 相同 的 观测 的 集 
为 了 便于 理解 ， 在 本 章 后 面 的 前 述 中 ，BY 变 量 既 代表 一 个 BY 变量 ， 也 可 以 是 多 个 BY 变量 。 


在 使 用 BY 语句 时 ， 所 有 输入 数据 集 都 必须 是 按 BY 变 量 排 过 序 ， 或 者 有 基于 BY 变量 建立 的 索引 (在 以 后 的 所 有 代码 中 ， 使 用 BY 语句 都 有 这 样 的 要 求 ) 。 串 接 完 毕 后， 新 数据 集中 的 观测 也 将 按照 BY 变量 
排序 。 


例 4.3: 对 数据 集 Work.New_Emloyee_Dept 和 Work.OId Emplyee_Gen 进 行 穿 插 串 接 。 


由 于 work.New_Employee_Dept 和 work.Old_Employee_Gen 都 没有 按照 Emp_ID 排 序 ， 在 对 这 两 个 数据 集 进行 穿插 串 接 时 ， 首 先 必须 对 其 按 Emp_1D 排 序 。 对 数据 集 进 行 排序 ， 可 以 使 用 前 面 章节 介绍 
的 SORT 过 程 。 


示例 代码 如 下 : 





proc sort data=work.New Employee Dept; 
by Emp ID; 











run 
proc sort data=work.Old Fmployee Gen; 
by Emp ID; 
































run; 
data work.Employee Int; 
set work.Old Fmployee Gen work.New Fmployee Dept; 
by Emp ID; 
run; 加 
proc print data=work.Employee Int; 
title 'All Employee Interleaving by ID'; 
run; 


















































输出 内 容 如 图 4.4 所 示 。 


Al| Ermplovee Interneaving by ID 


计 


Emp Name (a 
Alfred 





Em'y 

John 加 
Kim Ss 
Nol ly F 

JPrmTYV TSG 
Dllon MA 


加 | 


Helen F 





图 4.4 排序 后 的 数据 集 内 容 
加 注意 ”使 用 BY 语句 可 以 很 高 效 地 得 到 按 BY 变 量 排序 后 的 新 数据 集 。 如 果 新 数据 集 的 观测 数 很 多 ， 此 方式 将 会 节约 资源 和 时 间 。 
3. 使 用 LENGTH 语 句 


当 输入 数据 集中 同名 变量 的 长 度 不 一 样 时 ， 新 数据 集中 该 变量 的 长 度 等 于 SET 语句 中 第 一 个 数据 集中 对 应 变量 的 长 度 。 在 对 多 个 数据 集 进 行 串 接 时 ， 最 好 先 检 查 字 符 型 变量 的 长 度 ， 避 免 在 读 取 变 量 值 
时 造成 截断 。 如 有 需要 ， 可 以 在 使 用 SET 语句 之 前 使 用 LENGTH 语 句 来 定义 变量 的 长 度 。 


使 用 LENGTH 语 句 定义 变量 长 度 的 基本 形式 如 下 : 





LENGTH 变量 1 < $ > 长 度 < 变量 2 < $ > 长 度 .. >; 





在 定义 字符 型 变量 的 长 度 时 ， 需 在 长 度 前 面 加 上 $ 符 号 。 
例 4.4: 使 用 LENGTH 语 句 将 数据 集 work.Employee 中 Emp_ID 的 长 度 定义 为 15。 


示例 代码 如 下 : 





data work.Employee; 
length Emp ID S15 
Set work.New FEmployee work.Old employee; 
by Emp ID; 

run; 加 
































4 .使 用 选项 RENAME= 


在 上 面 的 例子 中 ， 输 入 数据 集中 相同 含义 的 字段 正好 同名 ， 但 是 在 很 多 情况 下 ， 由 于 数据 来 自 于 不 同 的 部 门 系统 和 时 期 ， 输 入 数据 集中 相同 含义 的 变量 往往 不 具有 相同 的 变量 名 。 例 如 ， 在 一 个 数据 集 
中 表示 员工 ID 的 变量 名 叫 ID， 在 另 一 个 数据 集中 表示 员工 ID 的 变量 名 叫 Emp_ID， 在 进行 数据 拼接 的 时 候 ， 如 果 不 做 另外 的 处 理 ， 这 两 个 变量 将 会 被 SAs 认 为 是 两 个 不 同 的 字段 ， 并 分 别人 存储 在 两 个 不 同 的 变 
量 下 。 这 时 可 以 使 用 RENAME= 选 项 将 两 个 数据 集中 的 变量 名 改 成 一 致 的 名 称 ， 避 免 出 现 前 面 描述 的 问题 。 


使 用 RENAME= 选 项 的 基本 形式 如 下 : 





数据 集 (RE 





,NAME= 





一 











原 变量 名 1 = 新 变量 名 1 < 原 变量 名 2 = 新 变量 名 2 .… >) ) ; 





例 4.5: 数据 集 exJMP_staff 和 ex.RND_staff 中 分 别 包 含 了 两 个 系统 中 存储 的 员工 信息 ， 现 在 公司 整合 员工 信息 ， 谷 将 两 个 系统 中 的 员工 信息 统一 管理 ， 并 且 要 求 所 有 员工 的 记录 根据 入 职 年 份 


Entry Year 来 排列 。 


首先 ， 通 过 前 面 介绍 的 PROC CONTENTS 来 看 一 看 ex.JMP_Staff 和 和 ex.RND_Staff 中 分 别 包 含有 哪些 变量 及 相应 的 属性 。 代 码 如 下 : 








proc contents da 








ta=ex.JMP S 








proc contents da 


ta=ex.RND S 





taff VARNUM; 




















taff VARNUM; 





如 图 4.5 所 示 是 部 分 输出 (VARNUM 选 项 使 得 CONTENTS 过 程 的 输出 中 变量 按 创 建 时 间 排 序 ) 。 


CONTENTS PROCEDURE CONTENTS PROCEDURE 












































数据 集 名 EX.RND_STAFF 观测 40 数据 集 名 EX.JMP_STAFF 观测 19 
成 品类 型 DATA 变量 7 成 员 尖 型 DATA 变量 1 
引 枸 ve 索引 0 引 梧 V9 素 引 0 
创建 时 间 2013-10-20 23:10:59 观测 长 度 |72 创建 时 间 2013-10-20 23:10:59 观测 长 度 72 
上 次 修改 时 间 | 2013-10-20 23:10:59 删除 的 观测 0 上 次 修改 时 间 2013-10-20 23:10:59 删除 的 观测 0 
保护 已 压缩 NO 保护 | 已 压缩 NO 
数据 集 类 型 已 排序 YES 数据 集 类 型 已 排序 YES 
标签 | 标签 
数据 表示 法 WINDOWS_64 数据 表示 法 | WINDOWS_64 
编码 wiatin] Westem (Windows) 编码 wiatin1 Westem (Windows) 
技 创建 时 间 排 序 的 变量 按 创 建 时 间 排 序 的 变量 
# 变量 类 型 长 度 输出 格式 上 输入 格式 # 变 虽 类 型 长度 输出 格式 输入 格式 
TiEmp ID 和 5 $CHARS. $CHARS. 1 生 符 ”5 $CHARS. | $CHARS. 
mp_Name 字符 16 | $CHAR16 $CHART16 2 Emp_Name 字符 16 $CHARIE. $CHARI1G. 
3 | first 字符 9 $CHARS. $CHARS. 3 | frst 字符 9 $CHARS. | $CHARS 
4 | last 字符 10 $CHARI0. $CHAR10， 4 | last 字符 10 $CHARTO0. | $CHARTO. 
5 | Dept 字符 3 了 1$CHAR3.、 | $CHAR3. 5 Dept 字符 3 4CHAR3 | $CHAR3. 
6 | Title 字符 | 14 $CHAR14. $CHART4. 6 | Title 享 符 14 $CHARI14. $CHARIT4. 
了 | Entry_Year 数值 a BEST12 | BEST12. 7 | Entry_Year | 数值 8 BEST12 | BEST12. 


图 4.5 PROC CONTENTS 过 程 的 部 分 输出 


两 个 数据 集中 包含 了 相同 数量 的 变量 ， 但 是 数据 集 JMP_Staff 中 表示 员工 1D 的 变量 名 为 Employee ID， 而 RnD Staff 中 表示 员工 1D 的 变量 名 为 Emp_ ID， 
为 一 致 。 示 例 代码 如 下 : 


此 时 可 借助 RENAME= 选 项 将 两 个 变量 的 名 称 改 





data work.All Staff; 
set ex.JMP Staff (rename= (Employee ID=Emp 
ex.RND Staff; 















































run; 





加 注意 上 例 中 ，RENAME= 选 项 并 没有 真正 更 改 原 数据 集 ex.JMP_STAFF 中 的 变量 名 ， 只 是 在 DATA 步 的 编译 阶段 ， 系 统 读 入 exJMP_Staff 中 变量 的 描述 部 分 时 ， 将 变量 Employee_ID 更 名 为 了 Emp_ID。 


4.1.2 ”使 用 APPEND 过 程 实现 纵向 串 接 


使 用 APPEND 过 程 进行 数据 集 串 接 的 基本 形式 如 下 : 








PROC APPEND BASE= 主 数据 集 <DATA= 追 加 数据 集 > <FORCE>; 














其 中 : 


* 主 数 据 集 表示 需要 增加 观测 的 数据 集 。 该 主 数据 集 可 以 是 已 经 存在 的 数据 集 ， 也 可 以 是 不 存在 的 数据 集 。 当 主 数据 集 不 存在 时 ， 在 执行 完 APPEND 过 程 后 ， 将 生成 主 数据 集 ， 并 将 追加 数据 集 的 观测 
复制 到 主 数据 集中 。 


. 追加 数据 集中 包含 了 需要 被 添加 到 主 数据 集中 的 观测 。 这 个 语句 可 以 是 默认 的 ， 此 时 ，SAS 会 将 当前 数据 集 的 观测 添加 到 主 数 据 集 的 后 面 。 当 前 数据 集 指 的 是 SAS 系 统 最 近 一 次 生成 的 数据 集 。 通 常情 
况 下 ， 为 了 保证 程序 的 可 读 性 ， 不 建议 默认 。 


` FORCE 选项 会 强制 将 追加 数据 集中 的 观测 添加 到 主 数据 集中 。 后 面 将 会 介绍 需要 使 用 FORCE 选 项 的 3 种 情况 及 其 结果 。 
使 用 APPEND 过 程 进 行囊 接 时 ，SAS 不 会 处 理 主 数据 集中 的 观测 ， 而 是 直接 将 追加 数据 集 的 观测 添加 到 主 数据 集 最 后 一 条 观测 的 后 面 ， 且 变量 仅 包 含 主 数据 集中 的 变量 。 


例 4.6: 运用 APPEND 过 程 将 work.New_Employee_Dept 和 work.Old_ employee_Gen 两 个 数据 集 进行 纵向 串 接 ， 并 将 串 接 后 的 数据 集 保 存在 work.Old_ employee_Gen 中 (前 面 在 介绍 SET 语句 的 时 


候 ， 已 经 介绍 并 操作 过 这 两 个 数据 集 ) 。 
两 个 数据 集 的 基本 情况 如 图 4.6 所 示 。 


两 个 数据 集 所 含 的 变量 不 全 一 致 ， 需 要 使 用 FORCE 语 句 来 进行 串 接 ， 代 码 如 下 : 











proc append base=work.Old Employee Gen data=work.New FEmployee Dept FORCE; 
run; 





串 接 后 的 数据 集 work.Old_ Employee_Gen 如 图 4.7 所 示 。 





CTE VIETTABLE: York. 01d employee_ 区 eT 


[ll| Emp ID | Emp Name Gendel| 
lawl 


区 VIEWITABLE: York Hes employvee dept 


hadly 
Dillon 
Helan 
John 





图 4.6” 例 4.6 中 使 用 的 数据 集 部 分 内 容 








1 
可 
上 四 
b 
了 
日 





图 4.7 串 接 后 的 数据 集 部 分 内 容 


从 上 面 的 例子 可 以 观察 到 ， 串 接 后 work.OIld_Employee_Gen 中 仪 包含 原来 含有 的 变量 ， 观 测 数 为 两 个 数据 集中 的 观测 之 和 。 这 里 使 用 了 FORCE 选 项 ， 如 果 去 掉 FORCE 选 项 ， 串 接 将 失败 ， 这 是 因为 追 


-~ 


加 数据 集 work.New_employee_dept 中 含有 主 数 据 集 没有 的 变量 
使 用 APPEND 过 程 时 特别 需要 注意 FORCE 选 项 的 使 用 ， 下 面 介 绍 需要 使 用 FORCE 选 项 的 3 种 情况 ， 以 及 使 用 FORCE 选 项 后 的 结果 ，。 
第 一 种 情况 ， 如 果 追 加 的 数据 集中 存在 不 包含 在 主 数据 集中 的 变量 ， 使 用 FORCE 选项 将 会 使 得 囊 接 成 功 ， 但 仅 存在 于 追加 数据 集中 的 变量 不 会 被 添加 到 主 数 据 集中 。 


* 第 二 种 情况 ， 如 果 同 名 变量 在 主 数据 集 和 追加 数据 集中 的 类 型 不 一 样 ， 那 么 需要 使 用 FORCE 选 项 ， 但 是 追加 进 主 数据 集 的 观测 对 应 的 这 个 变量 的 值 为 缺失 。 





` 第 三 种 情况 ， 如 果 同 名 变量 在 追加 数据 集中 的 长 度 大 于 主 数据 集中 的 长 度 ， 那 么 需要 使 用 FORCE 选 项 ， 在 执行 过 程 中 ， 追 加 数据 集中 的 变量 值 可 能 会 被 截断 。 
当主 数据 集中 包含 追加 数据 集中 不 含有 的 变量 时 ， 串 接 成 功 ， 同 时 系统 会 在 日 志 中 生成 和 警告， 并且 追加 数据 集中 不 含有 的 变量 之 值 都 为 缺失 。 另 外 ， 当 两 个 数据 集中 同名 变量 的 属性 不 一 致 时 ， 将 沿 
主 数 据 集中 变量 的 属性 。 
在 企业 交易 系统 数据 的 维护 过 程 中 可 以 使 用 APPEND 过 程 ， 例 如 主 数据 集 可 以 表示 历年 的 交易 记录 ， 追 加 数据 集 可 以 表示 每 年 新 增 的 交易 记录 ， 使 用 APPEND 过 程 可 以 将 每 年 新 增 的 销售 记录 方便 快速 


地 串 接 到 历年 的 销售 记录 中 。 


信 注 意 ”在 使 用 APPEND 过 程 时 ， 一 定 要 注意 观察 日 志 信息 ， 避 免 产 生 数据 缺失 、 截 断 等 异常 结果 。 
4.1.3 ”SET 语 句 与 APPEND 过 程 的 比较 


对 两 个 数据 集 进 行 纵向 串 接 时 ， 如 果 两 个 数据 集中 的 变量 名 称 和 属性 都 相同 ， 使 用 SET 语句 和 APPEND 过 程 ， 可 以 得 到 完全 一 样 的 结果 。 但 是 使 用 APPEND 过 程 的 效率 比 使 用 SET 语句 高 ， 尤 其 是 当主 数 
据 集 的 观测 量 很 大 时 ， 这 是 因为 APPEND 过 程 不 对 主 数据 集 的 观测 进行 操作 ， 而 是 直接 把 追加 数据 集 的 观测 加 到 主 数据 集 的 后 面 。 
当 输 入 数据 集 的 个 数 、 所 包含 的 变量 或 者 变量 属性 不 一 致 时 ， 两 种 方法 有 较 大 差别 ， 如 表 4.1 所 示 。 


表 4.1 SET 语句 和 APPEND 过 程 比较 


情 形 SET 语句 APPEND 过 程 


多 个 数据 集 的 串 接 使 用 在 两 个 或 两 个 以 上 数据 集 的 串 接 中 使 用 在 两 个 数据 集 的 串 接 中 
人 人 关 拍 佳 中 亦 且 不. 样 et Po 串 接 后 的 数据 集中 只 包含 主 数据 集中 
输入 数据 集中 变量 不 一 梓 | 串 接 后 的 数据 集中 包含 所 有 变量 0 和 : 
] 
当 多 个 输入 数据 集中 都 定义 了 变量 属性 ， 
则 串 接 后 的 数据 集 治 用 SET 语句 中 第 一 个 
数据 集中 的 属性 。 在 DATA 步 中 也 可 以 重 
新 定义 变量 的 属性 


输入 数据 集中 变量 的 输 
入 格式 、 输 出 格式 或 标签 
不 一 样 


使 用 主 数据 集 的 属性 





和 输入 数据 集中 变量 长 度 | 串 接 后 的 数据 集注 用 SET 语句 中 第 一 个 | 需要 使 用 FORCE 选项 ， 串 接 后 数据 


一样 数据 集中 的 变量 长 度 集 泊 用 主 效 据 集 中 的 变量 长 度 
输入 数据 集中 变量 类 天 需要 使 用 FORCE 选项 ， 串 接 后 的 数 
扣 女人 了] 让 -二 pa i i Rh i es RE 
dy 报错 ， 串 接 失败 据 集 沿用 主 数据 集中 的 变量 类 型 ， 追 加 


个 - - 样 局 re ES AFL yw io 
进来 的 观测 中 该 变量 的 但 都 被 置 为 缺失 





4.2 效 皂 集 的 横 同 合并 


数据 集 的 横向 合并 ， 指 的 是 将 两 个 或 多 个 数据 集 根据 某 种 原则 横向 合并 起 来 ， 形 成 新 的 数据 集 。SAS 提 供 了 MERGE 语 句 来 实现 两 个 或 多 个 数据 集 的 横向 合并 。 数 据 的 横向 合并 主要 分 为 以 下 两 种 情况 : 
. 不 使 用 BY 语句 合并 ， 也 称 为 一 对 一 合并 。 在 图 4.8 中 ， 将 数据 集 WORK.DATA1 和 数据 集 WORK.DATA2 进 行 一 对 一 合并 ， 生 成 了 数据 集 WORK.COMBINED。 


代码 如 下 : 








DATA WORK .COMBINED; 
MERGE WORK.DATA1 WORK.DATA2; 





























. 使 用 BY 语句 合并 ， 也 称 为 匹配 合并 。 在 图 4.9 中 ， 将 数据 集 WORKE.DATA1 和 数据 集 WORK.DATA2 通 过 Yeat 进 行 匹 配合 并 ， 生 成 了 数据 集 WORK.COMBINED。 


DATA1 ATA2 COMBINED 
Year VarY 





图 4.8 ”数据 集 一 对 一 合并 图 示 


DATA] DATA2 COMBINED 


图 4.9 ”数据 集 匹配 合并 图 示 


代码 如 下 : 

















DATA WORK .COMBINED; 
MERGE WORK .DATA1 WORK .DATA2; 
BY Year; 

















RUN; 


4.2.1 不 使 用 BY 语句 实现 横向 合并 


不 使 用 BY 语句 进行 数据 集 横向 合并 的 基本 形式 如 下 : 





DATA 新 数据 集 ; 
MERGE 数据 集 1 ”数据 集 2 ”< 数据 集 3 ”数据 集 4 ... >; 





























RUN; 


不 使 用 BY 语句 进行 数据 集 横向 合并 时 ， 对 输入 数据 集 的 排序 没有 要 求 。 
例 4.7: 某 部 门 的 主管 决定 在 年 终 的 时 候 对 本 部 门 的 员工 进行 考核 ， 数 据 集 work.staff 中 包含 了 员工 的 基本 信息 ， 而 另 一 个 数据 集 work.schedule 中 包含 了 考核 时 间 和 地 点 。 现 在 需要 给 每 位 员工 分 配 考 
核 时 间 和 地 点 。 


以 下 代码 创建 了 数据 集 。 











data work.staff; 
infile datalines dsgd; 
length emp name $20 title $15; 
input emp name $ title $ ，; 




















Jacob Adams,Analyst 
Emily Anderson,Analyst 
Michael Arnold,Senior Analyst 

















(0 


Hannah Baker,Manager 
Joshua Carter,Senior Analyst 








input time date9.room $11-24; 
format time date9.; 





01Dec2013 Meeting Room 1 
02Dec2013 Meeting Room 2 
03Dec2013 Meeting Room 1 
03Dec2013 Meeting Room 2 
04Dec2013 Meeting Room 3 
04Dec2013 Meeting Room 1 














run; 


其 中 ，Emp_name 表 示 员 工 姓 名 ，title 表 示 员 工 的 职位 ，time 表 示 考 核 时 间 ，room 表 示 和 时 间 对 应 的 会 议 室 。 现 在 将 时 间 和 会 议 室 分 配给 各 员工 ， 示 例 代 码 如 下 : 











data work.schedule; 
merge staff time; 





runy 
proc print data= work.schedule; 

title "Schedule for Performance Management"; 
run; 











输出 的 内 容 如 图 4.10 所 示 。 


Schedule for Performance Management 


Dbs emp name title time | room 

Jacob Adams Analyst O01DECG2013 Meeting Room 1 

Emly Anderson Analyst Qa2DEG2013 Meeting Room 2 

Michael Arnold | Senior Analyst | 03DEC2013 | Meeting Room 1 

Hannah Baker Manager 03DEC2013 Meeting R 

Joshua Carter Senior Analyst | 04DEC2013 | Meeting Room 3 
04DEG2013 Meeting Room 1 





图 4.10” 例 4.7 打 印 输 出 数据 集 内 容 
下 面 通 过 PDV 详 细 讲 解 SAS 执 行 MERGE 语 句 的 步骤 : 


1) DATA 步 编译 阶段 ，SAS 按 照 MERGE 语 句 中 数据 集 的 排列 顺序 ， 依 次 读 入 各 数据 集中 变量 的 描述 部 分 ， 并 将 各 变量 置 入 PDV。SAS 将 PDV 中 的 所 有 变量 值 都 置 为 缺失 值 。PDV 如 下 : 


Emp Name Title Time Room 


| | .| | 


2) DATA 步 执行 阶段 ，SAS 按 照 MERGE 语 句 中 数据 集 的 排列 顺序 ， 从 第 一 个 数据 集 staff 中 读 入 第 一 条 观测 ， 并 复制 到 PDV 中 。 此 时 的 PDV 如 下 : 


Emp Name Title Time Room 





esbmms | ms | | 


3) SAS 从 第 二 个 数据 集 time 中 读 入 第 一 条 观测 ， 并 复制 到 PDV 中 。 如 果 数 据 集中 有 同名 的 变量 ， 后 读 入 的 值 将 覆盖 先 读 入 的 值 。 此 时 的 PDV 如 下 : 


Emp Name Title Time Room 





4) SAS 执 行 DATA 步 中 的 其 他 语句 ， 然 后 将 PDV 中 的 值 写 入 新 数据 集 schedule 中 。 


5) SAS 依 次 从 各 个 数据 集中 读 入 第 二 条 观测 ， 并 复制 到 PDV 中 。PDV 如 下 : 


Emp Name Title Time Room 


Emily Anderson Analyst 02Dec2013 Meeting Room 2 





然后 SAs 执 行 DATA 步 中 的 其 他 语句 ， 最 后 将 PDV 中 的 值 写 入 新 数据 集中 。 


6) SAS 依 次 处 理 各 个 数据 集中 的 各 条 观测 ， 直 到 处 理 完 某 一 个 数据 集中 的 所 有 观测 。 在 这 里 ，SAS 在 处 理 完 第 一 个 数据 集 work.staff 中 的 第 五 条 观测 后 ，PDV 中 来 自 该 数据 集中 的 变量 都 被 置 为 缺失 。 
PDV 如 下 : 


Emp Name Title Time Room 





| | 04Dec20l3 | Mecting Room3 


7) SAS 读 入 第 二 个 数据 集 work.time 的 最 后 一 条 观测 ， 并 复制 到 PDV 中 。PDV 如 下 : 


Emp Name Title Time Room 





| | Dec20l3 |Meeting Room] 


8) SAS 执 行 DATA 步 中 的 其 他 语句 ， 然 后 将 PDV 中 的 值 写 入 新 数据 集中 。 此 时 ，SAS 已 经 处 理 完 所 有 数据 集中 的 所 有 观测 。 
这 样 就 不 难 理解 为 何 新 数据 集 schedule 中 最 后 一 条 观测 的 变量 emp_name 和 title 的 值 都 为 缺失 了 。 
这 里 可 以 总 结 一 下 SAS 处 理 一 对 一 合并 的 原则 : 
.新 数据 集 的 第 一 条 观测 包含 各 个 输入 数据 集中 第 一 条 观测 的 信息 ， 第 二 条 观测 包含 各 个 输入 数据 集中 第 二 条 观测 的 信息 ， 不 足 的 观测 用 缺失 值 补 足 。 
新 数据 集 含 有 的 观测 数 为 所 有 输入 数据 集 的 最 大 观测 数 。 


在 实际 应 用 中 ， 一 对 一 合并 的 情形 不 常见 ， 多 数 情况 是 开发 人 员 在 进行 匹配 合并 时 忘记 加 BY 语句 。 为 了 防止 这 种 手工 错误 的 发 生 ，SASs 提 供 了 系统 选项 MERGENOBY= ， 这 样 就 可 在 发 生 这 种 手工 错误 
时 给 开发 人 员 以 必要 的 提醒 。MERGENOBY= 有 以 下 3 种 取 值 : 


. MERGENOBY=NOWARN， 这 是 系统 的 默认 选项 ， 在 执行 没有 BY 语句 的 MERGE 语 名 时 ， 系 统 进行 一 对 一 合并 。 
. 当 MERGENOBY=WARN 时 ， 系 统 给 出 警告 ，“WARNING: 没有 为 MERGE 语 和 句 指定 BY 语句 。” 
. 当 MERGENOBY=ERROR 时 ， 系 统 报错 ，“ERROR: 没有 为 MERGE 语 句 指定 BY 语句 。” 


在 例 4.7 中 ， 如 果 在 程序 中 重新 设置 系统 选项 MERGENOBY=ERROR,， 程序 将 报错 ， 如 下 : 





options mergenoby=error; 
data work.schedule; 

merge staff time; 
run; 

















日 志 信 息 如 图 4.11 所 示 。 


M90 options mergenoby=error; 
491 data work.schedule; 

N92 merge staff times; 
a93 Funs 


ERROR : 7% MERGE 1 去 
NOTE : 用 各 ， SRhS 人 
UNRNING : #7 据 集 WORK . i 于 ， 夫 有 6 个 观测 和 4 个 变量 。 
NOTE: “DATA 站 所 用 时 间 
4 .05 ; 
日 


CPU 日 .64 





图 4.11 报错 日 志 


4.2.2 ”使 用 BY 语句 实现 横向 合并 


使 用 BY 语句 进行 数据 集 横向 合并 的 基本 形式 如 下 : 








DATA 新 数据 集 ; 
MERGE 数据 集 1 数据 集 2 ”< 数据 集 3 ”数据 集 4 ... >; 
BY 变量 名 1 < 变量 名 2 ”变量 名 3 ... >; 


















































RUN; 


和 之 前 介绍 SET 语句 时 提 及 的 一 样 ， 当 使 用 BY 语句 时 ， 输 入 数据 集 必 须 按 BY 变量 排序 。 
SAS 人 在 处 理 匹配 合并 的 DATA 步 程序 时 ， 主 要 分 以 下 两 个 阶段 : 


“ 编译 阶段 ，SAS 在 辨识 出 MERGE 语 名 后 ， 将 按照 其 中 数据 集 的 排列 顺序 ， 依 次 读 入 所 有 数据 集中 变量 的 描述 部 分 ， 包 括 DATA 步 中 新 创建 变量 的 描述 部 分 ， 并 将 所 有 变量 置 于 PDV 中 。 若 不 同 的 数据 
集中 有 同名 的 变量 ， 则 要 求 它 们 的 数据 类 型 必须 相同 ， 长 度 以 第 一 次 出 现 的 变量 为 准 。 


号 


. 执行 阶段 ， 各 输入 数据 集中 的 观测 按 BY 变 量 进行 匹配 ， 在 DATA 步 的 每 次 循环 中 依次 读 入 BY 组 合 的 每 条 观测 。 如 果 遇 到 同名 的 变量 ， 后 读 入 的 变量 值 将 履 盖 先 读 入 的 变量 值 。 由 数据 集中 读 入 的 变量 
值 ， 会 自动 地 保留 到 BY 变量 值 在 所 有 输入 数据 集中 都 改变 为 止 。 由 DATA 步 新 创建 的 变量 ， 其 变量 值 在 每 次 循环 中 都 不 能 在 PDV 中 自动 保留 ， 也 就 是 说 ， 在 处 理 下 一 条 数据 之 前 它 将 被 置 为 缺失 值 。 


匹配 合并 数据 集 在 数据 处 理 中 应 用 非常 广泛 ， 只 有 理解 了 SAs 处 理 匹配 合并 的 逻辑 之 后 才能 在 使 用 的 时 候 进行 合理 的 操作 。 接 下 来 逐一 介绍 匹配 合并 的 3 种 情形 ， 并 结合 PDV 讲 解 SAs 的 处 理 逻 辑 。 


1.BY 变 量 值 在 所 有 数据 集中 唯一 
BY 变量 值 在 所 有 数据 集中 都 是 唯一 的 ， 即 在 任 一 输入 数据 集中 ， 没 有 两 条 或 两 条 以 上 的 观测 具有 相同 的 BY 变量 值 ， 这 是 最 简单 的 一 种 情景 。 


例 4.8: 数据 集 ex.staff_personel 中 包含 了 员工 的 基本 信息 ， 如 Emp_ID、 姓 名 、 部 门 ， 另 一 个 数据 集 ex.sales_current_month 包 含 了 员工 本 月 的 业绩 信息 ， 如 Emp_ID、 产 品种 类 和 销售 额 ， 但 是 不 含有 
员工 姓名 。 现 在 欲 制 作 一 张 报表 展现 员工 本 月 业绩 ， 并 在 报表 中 包含 员工 姓名 和 部 门 数据 。 


首先 得 对 ex.staff personel 和 ex.sales current _ month 按 照 Emp_1D 进 行 排序 ， 代 码 如 下 : 























proc sort data=ex.staff personel out=work.staff personel; 
y Emp_ID; 








riany 
proc sort data=ex.sales current month out=work.sales current month; 

by Emp ID; 
Lun; 
































排序 后 的 数据 集 如 图 4.12 所 示 。 





FE LA - 重 总 玉 医 . 涪 二 下 开 _ current month 


Emp ID| Product Class | saes 


CE VIETTABLE: York. Stoaff personel 
Emp_ID 





Emp_Name Dept 









































1 EDOO2 Dawd Dwen DSG ED00az 

2 EQO001 |Hannah Baker QSG| | EG001 Logistics i 
3 |ETOO5 Nicholas Edward T66| | 3 |ET003 Finance 5 
| ET006 kayla Eddy T5G | ETOD4 |nsurance 28 
5 |ETOO?7 Alexis Depp TS6| | 5 |ET005 Logistics 26 
B |ET008 Taylor Breen 15SG| | 6 |ET006 Manufacture Ae 
* |ET009 Jessica Hal TS5G6 ETOOF Manulacture 6 
B |ETOO |Wiliam Hanis 15G| | 日 |EToo8 Manufacture 24 
9 |ETOIT Jim Willams T56 ET009 Finance 19 
10 |ETOI Justin wallker TSG Il0 |ETOIO Tobacco 2 


图 4.12” 例 4.8 数 据 集 排序 后 部 分 内 


以 下 代码 实现 了 合并 操作 : 








data work.sStaff sales; 
merge work.staff personel work.sales current month; 
by Emp ID; 


























run; 
proc print data=work.Staff sales noobs; 
title'Staff Sales';} 


























run; 


输出 内 容 如 图 4.13 所 示 。 


Staff Sales 


Emp ID Emp _ Name Dept Product Class | sales 
EDOOS David OWen DS | Insurance 1 
EQOO1T (Hannah Baker QSG Logistics 18 
ET003 Finance 9 

Insurance 半日 
Nicholas Edward | TSG | Loglistlcs 2b 
Kayla Eddy TSG | Manutacture 22 
ETOO Alexls Depp TS | Manutacture 6 





Taylor Greer TSG | Manufacture | 





Jesslica Hall TSG | Finance 19 
ETO010 Willlam Harms TS | Tobacco 21 
ETO11 Jim WWilllams TS 
E10ONA Justin Wallker 1 


图 4.13” 例 4.8 打 印 输 出 数据 集 部 分 内 容 
当 BY 变 量 值 在 所 有 数据 集中 都 唯一 时 ， 各 个 数据 集 的 每 个 BY 组 合 中 都 只 有 一 条 观测 。 结 合 PDV 来 讲解 SAS 的 处 理 步 又 。 


1) 在 DATA 步 的 编译 阶段 ，SAS 按 照 MERGE 语 句 中 数据 集 的 排列 顺序 ， 依 次 读 入 各 数据 集 变量 的 描述 部 分 ， 并 将 各 变量 置 入 PDV。SAS 将 PDV 中 的 所 有 变量 值 都 置 为 缺失 值 。PDV 如 下 : 


Emp ID Emp Name Dept Product Class Sales 


| | | | | . 


2) SAS 根 据 各 数据 集 BY 变 量 值 的 第 一 个 值 确定 排 在 第 一 的 BY 组 合 。 在 本 例 中 ， 两 个 数据 集中 第 一 个 BY 组 合 的 BY 变量 值 都 为 ED002。 


3) SAS 根 据 MERGE 语 句 中 数据 集 的 排列 顺序 ， 从 第 一 个 数据 集 work.staff_personel 中 读 取 第 一 个 BY 组 合 中 的 观测 ， 并 复制 到 PDV 中 。PDV 如 下 : 


Emp ID Emp Name Dept Product Class Sales 





4) SAS 从 第 二 个 数据 集 work.staff_current_month 中 读 取 相 应 BY 组 合 中 的 观测 ， 并 复制 到 PDV 中 。 如 果 某 一 个 数据 集中 没有 任何 观测 属于 该 BY 组 合 ， 则 仪 包含 于 该 数据 集 的 变量 在 PDV 中 为 缺失 值 。 
PDV 如 下 。 


Emp ID Emp Name Dept Product Class Sales 


David Owen 





5) SAS 执 行 DATA 步 中 的 其 他 语句 (本 例 中 没有 其 他 语句 ) ， 然 后 将 PDV 中 的 值 写 入 新 的 数据 集中 。 这 时 所 有 数据 集中 都 不 再 有 观测 属于 第 一 个 BY 组 合 ，SAS 将 PDV 中 所 有 变量 值 都 重 置 为 缺失 。PDV 
如 下 : 


Emp ID Emp Name Dept Product Class Sales 


| | | TT | .jj 


6) SAS 从 各 数据 集中 确定 排 在 第 二 的 BY 组 合 。 两 个 数据 集中 下 一 个 BY 组 合 的 BY 变量 值 都 为 EQ002。SAS 重 复 第 三 步 至 第 五 步 ， 处 理 第 二 个 BY 组 合 。 处 理 完 后 ，PDV 中 的 变量 值 都 置 为 缺失 。 


7) SAS 从 各 数据 集中 处 理 第 三 个 BY 组 合 。work.staff_personel 中 下 一 个 BY 组 合 的 BY 变量 值 为 ET005，work.staff_current_month 中 下 一 个 BY 组 合 的 BY 变量 值 为 ET003， 则 SAS 确 定 BY 变 量 值 为 ET003 
的 BY 组 合 为 第 三 个 BY 组 合 。 


8) work.staff_personel 中 没有 观测 属于 第 三 个 BY 组 合 (BY 变量 为 ET003 的 观测 ) ， 于 是 仅 在 work.staff_personel 中 存在 的 变量 在 PDV 中 将 为 缺失 值 ，SAS 接 着 从 work.staff_current_time 中 读 取 第 三 


个 BY 组 合 的 观测 ， 并 复制 到 PDV 中 。 此 时 的 PDV 如 下 : 


Emp ID Emp Name Dept Product Class Sales 
TT | me | 


9) SAs 执 行 DATA 步 中 的 其 他 语句 ， 然 后 将 PDV 中 的 值 写 入 新 数据 集 ， 并 将 PDV 中 的 变量 值 重 置 为 缺失 。 
10) SAs 按 照 以 上 的 逻辑 执行 ， 直 到 处 理 完 所 有 数据 集 的 所 有 观测 。 


新 数据 集 work.Staff Sales 中 包含 了 两 个 数据 集中 的 所 有 变量 ， 因 为 Emp_1D 为 EC001 的 记录 在 work.staff_personel 中 不 存在 ， 所 以 无 法 知道 该 员工 的 姓名 及 部 门 信息 ; 又 因为 Emp_1D 为 ET009 的 记录 
在 work.sales_current_month 中 不 存在 ， 所 以 无 法 知道 该 员工 的 业绩 信息 。 


2.BY 变 量 值 在 某 一 数据 集中 存在 重复 


BY 变量 值 在 某 一 输入 数据 集中 存在 重复 值 ， 即 在 其 中 一 个 输入 数据 集中 ， 含 有 两 条 或 两 条 以 上 的 观测 具有 相同 的 BY 变量 值 ， 也 称 为 一 对 多 合并 。 在 匹配 过 程 中 会 遵循 如 下 原则 : 由 输入 数据 集 读 入 的 变 
量 值 ， 会 保留 在 PDV 中 ， 直 到 被 下 一 个 读 入 的 观测 值 覆 盖 或 该 BY 组 合 处 理 完毕 被 重 置 为 缺失 值 为 止 。 接 下 来 通过 一 个 简单 的 例子 来 具体 讲解 这 一 原则 。 


例 4.9: 接着 例 4.8， 数 据 集 ex.sales_ three_month 中 包含 了 最 近 3 个 月 的 绩效 信息 ， 每 个 员工 每 个 月 都 有 一 条 记录 ， 现 在 欲 制作 一 个 报告 显示 员工 最 近 3 个 月 的 绩效 信息 ， 并 显示 员工 的 姓名 和 部 门 。 


这 里 Emp_ID 变 量 值 在 输入 数据 集中 不 再 是 唯一 的 。 以 下 代码 可 以 实现 员工 信息 和 最 近 3 个 月 绩效 信息 的 匹配 : 




















proc sort data=ex.staff personel out=work.staff personel; 
by Emp igd; 

















ee 


y Emp id; 





proc sort data=ex.sales three month out=work.sales three month; 
b ; 


rn 
data work.staff report; 
merge work.staff personel work.sales three month; 
by Emp id; 





























run; 
proc print data=work.staff personel noobs; 
title "Staff Information"™"; 






































ran 
proc print data=work.sales three month noobs; 
title "Sales For Three Months"; 









































proc print data=work.staff report noobs; 
title "Staff Report"™; 





























输出 内 容 如 图 4.14 所 示 。 


当 BY 变 量 值 有 重复 时 ， 则 在 某 些 数据 集中 的 某 些 BY 组 合 中 会 存在 多 条 观测 。SAS 在 碰 到 这 种 情况 时 的 处 理 步 骤 如 下 : 


Staff Information 


ales For Three Months 


Emp ID Emp Name Dept” Emp_ID Product_Class sales month | 
EDO0z Cai we DSE ED002 Insuranee 1 各 1 
EQO001 Hannah Baker | QSG EDO02 -Insurance 21 2 
ETO0S Nicholas Edward | TSG EDOGS Insurance < 2 
ETO06 _ Kayla Eddy TS6G ET009 Finance 20 1 
ETO07 5 Alexis Depp TSC ET009 。 Finance 19 2 
ET008 Taylor Green TSEC ETO0S Finance 18 3 了 
ET003 Jessica Hall TSG ET010 Tobacce 5 1 
ETO10 Wlllarm Harris TS 局 ETOIO Tobacco 28 2 
ETO11 Jim Williams TSG ET0OID -Tobacco 26 
ETO14 JUustin Wallker TS3G 加 

Staff Report 


Emp_iD Emp_Name Dept Product Class salles month 


ED002 | David Owern DSG | Insurance 18 1 
EDB002 David OwWen DSG | Insurance 21 

EDU0= Davtd Owen DsG lInsurance 二 二 
EQO01 | Hannah Baker | OSG 

ETO0S | Nicholas Edward | TSG 

ETO0S | Kayla Eddy TS5G 

ETUO07 | Alexis Depp TS 

ETONg Taylor Green TS 

ETO0S J Hall Toss | Finance 20 1 
ETO09 Jeassita Hll TS Finance 1 2 
ETO09 | Jessita Hall Ts |Finance 18 3 
ETOIO | Willam Hamis TSG |Tobacco 5 1 
ETO10 Willlarm Harmis TSG | Tobaceo 28 2 
ETOIWO | Willam Hams /TSG | Tobaceo 26 3 
ETO11 Jirm Williams TS3G 

ETU14 Justin Walker | Ts 


图 4.14 例 4.9 打 印 输出 数据 集 内 容 


1) DATA 步 编译 阶段 ，SAs 按 照 MERGE 语 句 中 数据 集 出 现 的 排列 顺序 ， 依 次 读 入 各 数据 集 变 量 的 描述 部 分 ， 并 将 各 变量 置 入 PDV。Emp_ID、Emp_Name 和 Dept 来 自 于 
work.staff personel，Product Class、Sales 和 month 来 自 于 work.sales three month。SAs 将 PDV 中 所 有 变量 值 置 为 缺失 。PDV 如 下 : 


Product Class Sales Month 


Emp Id Emp Name Dept 


2) SAS 根 据 各 数据 集 BY 变 量 的 第 一 个 值 确定 排 在 第 一 的 BY 组 合 。 在 本 例 中 ， 两 个 数据 集中 第 一 个 BY 组 合 的 BY 变量 值 都 为 ED002。 


3) SAS 根 据 MERGE 语 句 中 数据 集 的 顺序 ， 从 第 一 个 数据 集 work.staff_personel 中 读 取 第 一 个 BY 组 合 中 的 第 一 条 观测 ， 并 复制 到 PDV 中 。 此 时 ，PDV 如 下 : 


Emp_ Name Dept Product Class Sales Month 


Emp Id 


4) SAS 从 第 二 个 数据 集 work.sales_three_month 读 取 相 应 BY 组 合 (BY 变量 值 为 ED002 的 观测 的 集合 ) 中 的 第 一 条 观测 ， 并 复制 到 PDV 中 。 此 时 ，PDV 如 下 : 


Product Class Sales Month 


Emp Id Emp Name Dept 





， 将 被 重新 置 为 缺失 值 。 在 本 例 中 ， 由 于 没有 新 创建 


SAS 将 变量 值 从 PDV 中 写 入 新 数据 集 ， 并 且 同 时 在 PDV 中 保留 这 些 变量 值 。 但 是 请 注意 ，DATA 步 中 新 创建 的 变量 值 在 从 PDV 中 写 入 新 数据 集 后 


Un 


) 
的 变量 ，PDV 中 的 值 仍 然 与 步骤 4 所 列 的 相同 。 

6) SAS 从 各 个 数据 集中 读 取 第 一 个 BY 组 合 中 的 第 二 条 观测 。 此 时 ，work.staff_personel 不 含有 第 二 条 属于 该 BY 组 合 的 观测 ， 所 以 SAS 不 从 work.staff personel 读 取 观 测 ，Emp_Name 和 Dept 沿 用 
PDV 中 保留 的 变量 值 。 接 着 ，SAS 从 work.sales three_month 中 读 取 第 二 条 观测 ， 并 复制 到 PDV 中 。PDV 如 下 : 


Product Class Sales Month 


Emp Id 


7) SAS 将 变量 值 从 PDV 中 写 入 新 数据 集 ， 并 且 同 时 在 PDV 中 保留 这 些 变 量 值 。 
8) SAS 从 各 数据 集中 读 取 第 一 个 BY 组 合 的 第 三 条 观测 。 此 时 ， 只 有 work.sales three_month 中 含有 第 三 条 观测 ， 则 SAs 从 work.sales three_month 中 读 取 第 三 条 的 观测 ， 并 复制 到 PDV 中 。PDV 如 


Emp Name Dept 





下 : 
Product Class Sales Month 


Emp Name Dept 





Emp Id 


9) SAS 将 变量 值 从 PDV 中 写 入 新 数据 集 。 此 时 ， 所 有 输入 数据 集中 都 不 再 合 有 属于 第 一 个 BY 组 合 的 观测 ， 也 就 是 不 再 含有 BY 变量 为 ED003 的 观测 ，SAS 将 PDV 中 所 有 变量 值 都 置 为 缺失 。PDV 如 下 : 


Sales Month 


Emp Id Emp Name Dept Product Class 


10) SAS 从 各 数据 集中 寻找 下 一 个 BY 组 合 。 如 果 work.staff_personel 的 下 一 个 BY 组 合 的 BY 变量 值 为 EQ001，work.sales_three_month 的 下 一 个 BY 组 合 的 BY 变量 值 为 ET009， 则 SAS 判 断 BY 变 量 值 为 


EQ001 的 BY 组 合 为 下 一 个 BY 组 合 。 
11) SAS 从 work.sales_personel 中 读 取 BY 变量 值 为 EQ001 的 BY 组 合 的 第 一 条 观测 ， 并 复制 到 PDV 中 ， 由 于 work.sales_three_month 中 的 观测 都 不 属于 该 BY 组 合 ， 则 来 自 于 work.sales_three_month 


的 变量 Product_Class、Sales 和 和 Month 的 值 都 为 缺失 。 此 时 ，PDV 如 下 : 
Emp Id Emp Name Dept Product Class Sales Month 
12) SAS 将 变量 值 从 PDV 中 写 入 新 数据 集 ， 由 于 所 有 数据 集中 都 不 再 含有 属于 第 二 个 BY 组 合 的 观测 ， 因 此 SAS 将 PDV 中 的 所 有 变量 值 都 置 为 缺失 。 
13) SAS 从 各 数据 集中 寻找 下 一 个 BY 组 合并 重复 上 面 的 操作 ， 直 到 处 理 完 所 有 数据 集中 所 有 观测 。 
从 输出 结果 可 以 看 出 ， 在 新 数据 集中 ， 每 个 BY 变量 值 重 复 的 次 数 和 输入 数据 集中 重复 次 数 多 的 一 样 。 


3.BY 变 量 值 在 多 个 数据 集中 存在 重复 
只 能 处 理 这 一 种 情况 ， 它 同样 可 以 处 理 两 个 或 两 个 以 上 输入 数据 集中 的 BY 变量 值 重复 的 情况 ， 也 就 是 实现 


虽然 在 匹配 合并 时 ， 一 般 情 况 下 BY 变量 值 至 多 在 某 一 个 数据 集中 有 重复 ， 但 并 不 代表 匹配 合并 
多 对 多 合并 。SAs 的 匹配 原则 和 一 对 多 合并 时 一 样 ， 并 且 新 数据 集中 每 一 个 BY 变量 值 重复 的 次 数 和 输入 数据 集中 重复 次 数 最 多 的 一 样 。 


运用 MERGE 语 句 进行 多 对 多 合并 在 实际 应 用 中 并 不 常见 ， 但 是 理解 了 SAs 的 匹配 原则 在 实际 应 用 中 有 助 于 开发 人 员 进 行程 序 调试 和 质量 控制 。 这 里 用 一 个 简单 的 例子 帮助 读者 理解 。 


data WorK .Datal， 


input x Y ; 


datalines: 








有 这 
1] 3 
2 4 
3 海 
7 
run; 
data work.Data2; 1 3 
i 这 3 2 1 4 
| 3 1 4 
datalines:; 4 2 1 
0 5 2 3 
1 3 6 4 4 
] 4 
1 4 After Merging 
之 1 XYy|i2Z 
~ < 他 | 党 下 瑟 
二 3 1|13|4 
4 4 1|3|4 
2 4|1 
r 2 4|3 
run: 3|5 
4 4 


data work.Combined:; 
merge work.Datal work.Data2,; 
by es 

run: 

proc print data=work.Combined noobs; 
title ‘After Merging' 

run; 


在 输入 数据 集中 X=1 的 观测 有 3 条 记录 ，X=2 的 观测 有 2 条 记录 ， 输 出 数据 集中 X=1 和 X=2 的 观测 也 分 别 是 3 条 和 2 条 。 读 者 可 以 按照 例 4.8 介 绍 的 方法 一 步 步 分 解 SAS 的 处 理 步骤 。 


4.2.3 ”使 用 数据 集 选项 IN= 操 作 观 测 


在 例 4.8 中 ，work.staff_persone| 数 据 集中 有 一 部 分 员工 没有 业绩 信息 ， 如 果 不 想 将 这 些 员工 的 信息 包含 在 新 生成 的 数据 集中 ， 就 需要 确定 数据 集 work.staff_persone 上 与 work.sales_ current_ month 是 
否 分 别 输出 了 它们 的 观测 值 到 输出 数据 集中 。 使 用 数据 集 选 项 IN= 可 以 帮助 实现 这 一 功能 


数据 集 选项 IN= 的 基本 形式 如 下 : 


数据 集 (IN= 变量 ) 


数据 集 选项 IN= 可 以 运用 在 SET、MERGE、MODIFY、UPDATE 语 句 中 的 任何 数据 集 后 面 。 变 量 是 数值 型 临时 变量 ， 不 同 的 数据 集 应 定义 不 同 的 临时 变量 名 称 ， 临 时 变量 可 以 在 DATA 步 中 使 用 ， 但 是 
不 会 在 数据 集中 输出 。 在 某 一 数据 集 后 面 使 用 (IN= 变 量 ) 时 ， 如 果 PDV 中 对 应 的 变量 值 是 来 自 于 这 一 数据 集 的 观测 ， 临 时 变量 将 被 赋值 为 1， 否 则 临时 变量 的 值 为 0。 特 别 是 ， 当 和 BY 语句 一 起 使 用 时 ， 可 
以 通过 判断 PDV 中 BY 变量 的 值 是 否 来 自 于 这 一 数据 集 来 确定 临时 变量 的 值 。 











以 下 程序 对 例 4.8 的 数据 集 进 行 匹配 合并 时 使 用 了 数据 集 选项 IN =。 由 于 选项 IN = 指定 的 只 是 | 临时 变量 ， 为 了 在 输出 数据 集中 能 看 到 变量 的 值 ， 因 此 在 程序 中 又 将 这 些 临 时 变量 的 值 赋 给 了 新 变量 INA 和 
INB。 从 输出 结果 可 以 看 出 ， 在 合并 以 后 的 数据 集中 ， 来 自 work.staff_persone| 的 观测 的 INA 为 1， 来 自 sales_ current_month 的 观测 的 INB 为 1。 











data WOTK.Staftt sales; 






































merge work.staff personel (IN=al) 
work.sales current month (IN=b); 
by Emp 
ina=a 
inb=b 
ab ley 

















proc print data=work.Staff sales noobs; 
title 'Staff Sales'; 
run; 

















输出 如 图 4.15 所 示 。 





Staff Sales 


Dept 


Product Class sales ina 


inb 





EDOO2 David Owen DSG lnsurance 18 1 1 
EQOO1 Hannah Baker QSG Loglstics 18 1 1 
ETO04 Finarnee 号 | QI 1 
ETO04 Insurance 2 1 
ETO0S Nicholas Edward TSG Loglstics 26 1 1 
ET006 Kayla Eddy TSG | Manufacture 22 1 1 
ET007 | Alexls Depp TSG | Manufacture 6 1| 1 
ETOO8 Taylor Green TSG Manufacture 24 1 1 
ET009 Jessica Hall TS | Finance 19| 1 ] 
ETO010 William Hamis TSG | Tobaceco 21 1 1 
ET011 Jim Willilams TsG 1 0 
ET014 Justin Wallker 13G | 1 0 


图 4.15 ” 例 4.8 使 用 选项 IN= 打 印 输 出 内 容 


如 果 只 想 将 既 存 在 于 work.staff_personel 又 存在 于 work.sales_current_month 中 的 员工 记录 写 入 新 数据 集中 ， 可 以 通过 IF 语 句 实现 。 





data Staff sales; 
merge staff persone ] 



































S 
by Emp | 
业 下 a 


7 
and b; 








其 中 “if a and b; ”是 “if a and b then output; ”的 一 种 省 略 形式 。 


4.3 ”数据 集 的 更 新 


数据 集 的 更 新 ， 指 的 是 用 一 个 数据 集中 的 数据 来 替换 另 一 个 数据 集中 的 数据 。SAS 提 供 了 UPDATE 语 句 来 实现 数据 集 的 更 新 ， 如 图 4.16 所 示 。 


DAITA2 UPDAITE 


Year Vary 
1990 Y1 
1991 Y1 
1992 Y1 
1993 Y1 
Y2 Y1 
1995 | Xx1 | Y1 
Y2 1996 上 由 Y1 
1997 | X2 | Y2 
1998 Y1 
1999 Y2 
2000 Y2 


外 了 


2 | 2 
卢 | 


Y1 
1995 | Xx 
a 


[| 
| 1994 | x1 
| 
| 





图 4.16 ”数据 集 更 新 图 示 


UPDATE 语 句 如 下 : 


DATA WORK .DATA]l; 
UPDATE WORK .DATA1L WORK .DATA2 
BY Year; 








RUN; 


在 运用 UPDATE 语 句 进行 数据 集 更 新 时 ， 通 常 称 DATA1 为 主 数据 集 ，DATA2 为 更 新 数据 集 。 在 上 述 示例 中 ， 主 数据 集 和 更 新 数据 集 通 过 BY 变量 Year 联 系 起 来 ， 更 新 数据 集中 的 非 缺 失 的 变量 值 替换 了 
主 数据 集中 的 变量 值 。 对 于 更 新 数据 集中 存在 缺失 值 的 情况 ， 在 UPDATE 语 句 中 可 以 运用 选项 UPDATEMODE= 来 控制 是 否 用 缺失 值 蔡 换 主 数据 集中 的 变量 值 ， 系 统 默认 
UPDATEMODE=MISSINGCHECK， 也 就 是 不 替换 ; 如 果 设 置 UPDATEMODE=NOMISSINGCHECK， 则 不 管 更 新 数据 集中 的 变量 值 是 否 是 缺失 值 ， 都 将 替换 。 


使 用 UPDATE 语 句 进行 数据 集 更 新 的 基本 形式 如 下 : 

































































DATA 新 数据 集 ; 
UPDATE 主 数据 集 ”更 新 数据 集 
<UPDATEMODE = MISSINGCHECK | NOMISSINGCHECK>; 
BY 变量 1 < 变量 2 ”变量 3 .>; 
RUN; 


更 新 后 数据 集 的 名 称 可 以 是 新 的 数据 集 名 称 ， 不 需要 和 主 数据 集 同名 。 新 数据 集中 包含 主 数据 集 和 更 新 数据 集中 的 所 有 变量 。 


主 数据 集 和 更 新 数据 集 都 必须 按照 BY 变量 排序 。 通 常 要 求 BY 变量 值 在 主 数据 集中 必须 是 唯一 的 ， 且 不 需要 进行 更 新 ， 例 如 BY 变量 可 以 是 员工 号 或 交易 号 。 运 用 UPDATE 语 句 时 ， 如 果 SAS 发 现 主 数据 集 
中 BY 变量 值 有 重复 ，SAs 会 在 日 志 中 输出 警告 ， 此 时 虽然 可 更 新 成 功 ， 但 是 所 有 的 更 新 只 会 作用 在 主 数据 集中 BY 组 合 的 第 一 条 观测 上 。 


例 4.10: 某 公司 的 市 场 部 门将 所 有 的 客户 信息 都 存储 在 数据 集 work.Customer 中 ， 但 是 每 年 都 需要 对 这 些 客户 信息 进行 及 时 更 新 ， 更 新 信息 人 存储 在 数据 集 work.Updatelnfo 中 。 


以 下 代码 创建 了 数据 集 work.Customer 和 work.Updatelnfo。work.Customer 和 work.Updatelnfo 中 包含 了 客户 编号 、 姓 名 、 地 址 、 联 系 方式 等 数据 。 


data work.Customer; 
input Customer ID $1-4 Name $ 6-19 Agdress $ 21-37 City $ 39-51 State $ 53-54 }; 
datalines; 
































C0O01 Jacob Adams 111 Clancey Court Chapel Hill NC 
C002 Emily Anderson 1009 Cherry St. York PA 
C003 Michael Arnold 4 Shepherd St. Vancouver BC 
CO004 Hannah Baker Box 108 Milagro NM 
En 


proc print data=work.Customer noobs; 
title "Customer - Master Data"; 





runs 

data work.UpdateInfo; 
infile datalines missover; 

input Customer ID $1-4 Name $ 6-19 Agdress $ 21-37 City $ 39-51 State $ 53-54 }; 















































datalines 
C001 14 Bridge St. San Francisco CA 
C002 Emily Cooker 42 Rue Marston 
C002 52 Rue Marston Paris 
C005 Jimmy Cruze Box 100 Cary NC 
run; 














proc print dqata=work.UpdateInfo noobs; 
title "Update Information - Yearly Transaction Data"; 
run; 

















创建 的 数据 集 内 容 如 图 4.17 所 示 。 


Customer = Master Data 











Customer ID Name Address City State 
Cool | Jacob Adarms 111 Clancey Court Chapel Hill NC | 
CUQ2 Emily Anderson | 1009 Chemy St. Yom PA 
LUUj Nichael Amold | 4 Shecherd St. Vancouver BC 
LUUd4 Hannahn Baker | Box 108 Nilagro NM 





Update Information - Yearly Transaction Data 


Customer ID Name Address City | State 
CO01 14 Bridge St. San Franclsco | CA 
CO02 Emily Cooker 42 RUe Marston 

C002 52 Rue Marston Paris 

C005 Jimmy Cruze Box 100 Cary NC 


图 4.17 例 4.10 使 用 的 数据 集 内 容 


在 图 4.17 中 ，Customer 1D 是 客户 的 注册 号 ， 对 于 客户 来 说 ， 这 个 注册 号 是 唯一 的 。 由 于 work.Customer 和 work.Updatelnfo 都 已 经 按照 Customer 1D 排 过 序 ， 因 此 在 更 新 前 不 需要 重新 排序 。 接 下 来 
用 UPDATE 语 句 对 数据 集 work.Customer 进 行 更 新 。 示 例 代码 如 下 : 


data work.Customer update; 
Update work.Customer work.UpdateIinfo; 
by Customer ID; 

run; 加 

proc print data=work.Customer noobs; 

title "Customer - Master Data Update"; 














run; 


例 4.10 更 新 后 的 数据 集 如 图 4.18 所 示 。 
Customer = Master Data Update 


Customer_ID Name Address City State 








Coo1 Jacob Adams | 14 Bridge St. | San Francisco CA 
CO02 Emily Cooker | 52 Rue Marston Pans PA 
CO03 Michael Amold 4 Shepherd St | Vancouver BC 
cb004 Hannah Baker | Box 108 Milagroe NM 
CO0S JimmYy Cruze Box 100 Cary NC 


图 4.18 ” 例 4.10 更 新 后 的 数据 集 内 容 
在 上 例 中 ， 主 数据 集中 的 BY 变量 是 唯一 的 ， 更 新 数据 集中 的 BY 变量 值 存在 重复 值 ， 我 们 可 以 有 如 下 发 现 ; 


. 当 更 新 数据 集中 BY 变量 值 存在 重复 值 时 ，BY 组 合 中 的 后 一 条 观测 会 覆盖 前 一 条 观测 。 例 如 Customer_ ID 为 C002 的 更 新 信息 分 别 记 录 在 wotk.UpdateInfo 的 两 条 观测 中 ， 更 新 后 的 数据 集中 Customet_ID 为 


C002 的 观测 是 唯一 的 ， 并 且 Adqdtess 为 wotk.UpdateInfo 中 后 一 条 观测 的 值 。 


: 当 更 新 数据 集中 的 某 一 条 观测 在 主 数据 集 没 有 对 应 的 观测 时 ，SAS 会 直接 将 这 条 观测 作为 更 新 的 基础 ， 然 后 结合 更 新 数据 集中 剩余 的 观测 继续 处 理 该 观测 。 如 上 例 中 Customet_ ID 为 C005 的 观测 在 主 数 
据 集中 不 存在 ，SAS 将 其 作为 了 更 新 的 基础 ， 由 于 更 新 数据 集中 不 含有 其 他 Customet_ID 为 C005 的 观测 ， 所 以 该 条 观测 被 直接 加 入 新 数据 集中 。 


UPDATE 语 句 和 MERGE 语 句 都 可 以 对 两 个 数据 集 进行 匹配 合并 ， 但 是 存在 比较 大 的 区 别 ， 如 下 : 

. UPDATE 语句 只 能 操作 两 个 数据 集 ; MERGE 语 各 可 以 对 两 个 或 两 个 以 上 数据 集 进行 操作 。 

* 使 用 UPDATE 语 和 句 时 必须 使 用 BY 语句 ; MERGE 语句 在 不 使 用 BY 语句 的 时 候 也 可 以 按 观 测 号 进行 一 对 一 合并 。 

: 在 处 理 缺 失 值 时 ，UPDATE 语 多 可 以 控制 是 否 用 缺失 值 对 主 数据 集 进 行 替换 ; MERGE 语句 中 后 一 数据 集中 的 缺失 值 一 定 会 徐 盖 前 一 数据 集中 的 值 。 


: 当 BY 变量 值 在 后 一 数据 集 或 者 更 新 数据 集中 不 唯一 时 ，UPDATE 语 句 和 MERGE 语 和 句 的 处 理 方式 不 一 样 ， 详 见 上 一 章节 中 MERGE 语 句 的 多 种 情形 和 本 节 前 面部 分 的 介绍 。 


4.4 数据 集 的 更 改 
SAS 提 供 了 MODIFY 语 句 进一步 扩充 了 DATA 步 的 功能 ， 它 可 以 在 原 数 据 集 上 直接 进行 替代 、 删 除 或 添加 观测 的 操作 。 


4.4.1 单个 数据 集 的 更 改 


运用 MODIFY 语 句 进行 单个 数据 集 更 改 的 基本 形式 如 下 : 














DATA 原 数据 集 ; | 
MODIFY 原 数 据 集 ; 

















RUN; 


运用 MODIFY 语 句 ， 可 以 更 改 原 数 据 集 中 任何 变量 的 值 ， 但 是 由 于 该 语句 不 能 够 更 改 原 数据 集 的 描述 部 分 ， 因 此 不 能 在 原 数据 集中 添加 或 者 删除 变量 。 以 下 通过 一 个 销售 管理 系统 的 例子 来 讲解 
MODIFY 语 句 的 运用 。 


数据 集 work.inventory 中 包含 产品 、 库 存 和 价格 的 信息 ， 以 下 代码 创建 了 数据 集 work.inventory。 


data work.inventory; 
input Product ID $ Instock Price; 
datalines; 

POO1R 12 125.00 

P003T 34 40.00 

P301M 23 500.00 

PCO2M 12 100.00 





























r 

proc print data=work.inventory noobs; 
title "Warehouse Inventory"; 

rin 











数据 集 work.inventory 内 容 如 图 4.19 所 示 。 


例 4.11: 由 于 物价 上 涨 导 致 成 本 上 升 ， 公 司 决定 将 每 种 产 
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示例 代码 如 下 : 


data work.inventory; 
modify work.Inventory; 
price=price*] .15; 

rian 

proc print data=work.inventory noobs; 
title "Price reflects 15% increase'; 

政 记 站 六 




















更 改 后 的 数据 集 内 容 如 图 4.20 所 示 。 














Warehouse Inventory 









Froduct_ ID Instock Er 





















































POOR 12| 125 
‘POO3T | 34 40 | 
P301M 23 | S00 | 
PCO2M 12 | 100 ， 





Pnce reflects 15% InCrease 


Product ID Instock Pnce 
POOTR 12 143.7/5 
POO3T 34 | 46.00 
P301M 23 | 515.00 
FU Vi 12 | 115.00 


图 4.20 更改 后 数据 集 work.inventory 内 容 


全 注意 ”以 上 对 work.inventory 的 操作 ， 其 实 也 可 以 通过 SET 语 和 句 来 实现 。 对 于 单个 数据 集 的 操作 ，MODIFY 和 SET 语 句 相 比 较 ， 由 于 MODIFY 语 句 是 在 没有 备份 的 情况 下 直接 操作 原 数 据 集 的 ， 因 此 更 加 
节省 磁盘 空间 。 


4.4.2 ”两 个 数据 集 的 更 改 


使 用 MODIFY 语 句 可 以 实现 通过 一 个 数据 集 对 另 一 个 数据 集中 的 数据 进行 更 改 ， 基 本 形式 如 下 : 














DATA 主 数据 集 ; 

MODIFY 主 数据 集 ”修改 数据 集 ; 

BY 变量 1 < 变量 2 ”变量 3 .>; 
RUN; 


其 中 ， 主 数据 集 表示 需要 更 改 的 数据 集 ， 修 改 数据 集中 包含 了 用 于 更 改 的 数据 ， 此 时 必须 使 用 BY 语句 。 在 使 用 MODIFY 时 ， 主 数据 集 和 修改 数据 集中 的 BY 变量 不 需要 事先 排序 或 索引 ， 但 是 按 BY 变量 
排序 或 索引 可 以 提高 运行 效率 ， 特 别 是 在 观测 量 很 大 的 情况 下 。 


在 使 用 MODIFY 更 改 数据 集 时 ， 需 要 注意 以 下 两 点 : 


当主 数据 集中 的 BY 变量 值 有 重复 值 时 ， 只 有 每 个 BY 变量 值 的 第 一 条 观测 会 被 更 改 ; 当 修改 数据 集中 的 BY 变量 值 有 重复 值 时 ， 系 统 会 依次 读 入 修改 数据 集中 的 每 一 条 观测 ， 并 应 用 到 主 数据 集 ， 且 后 
读 入 的 观测 会 覆盖 前 一 次 读 入 的 观测 ;当主 数据 集 和 修改 数据 集中 的 BY 变量 值 都 有 重复 值 时 ， 系 统 会 依次 操作 修改 数据 集中 BY 组 合 中 的 每 一 条 观测 ， 并 且 应 用 到 主 数 据 集 中 对 应 BY 组 合 的 第 一 条 观测 中 。 


" 如 果 在 修改 数据 集中 存在 缺失 值 ， 系 统 默认 不 用 缺失 值 更 改 主 数据 集中 的 数据 。 如 有 果 需 要 用 缺失 值 更 改 主 数据 集 ， 可 以 仿照 在 UPDATE 语 句 中 使 用 选项 UPDATEMODE= 实 现 操作 。 
实际 上 ， 在 主 数据 集 或 修改 数据 集中 BY 变量 值 有 重复 值 时 ，MODIFY 语 句 的 处 理 逻 辑 和 UPDATE 语 名 一样。 


例 4.12: 接着 例 4.11 继 续 操 作 ， 数 据 集 work.inventory2 中 保存 了 公司 产品 在 海外 仓库 的 库存 信息 ， 现 在 公司 财务 欲 根据 work.inventory 和 work.inventory2 中 的 数据 计算 公司 各 产品 的 总 库存 ， 并 制作 
报告 。 


以 下 代码 创建 数据 集 work.inventory2。 





data work.inventory2; 
input Product ID $ Outstock ; 
datalines; 

POO1R 12 

POO1R 30 

POO1R 25 

P003T 34 

P301M 23 














六 
proc print data=work.inventory noobs; 
title "Warehouse Inventory Inhouse"; 








run; 
proc print data=work.inventory2 noobs; 
title 'Warehouse Inventory Overseas'; 





























run; 





两 个 数据 集 work.inventory 和 work.inventory2 的 内 容 如 图 4.21 所 示 。 


需要 注意 的 是 ， 在 work.inventory2 中 ， 产 品 P001R 有 三 条 观测 。 


计算 各 产品 总 库存 的 程序 如 下 : 





data work.inventory; 
modify work.inventory work.inventory2; 
by Product ig; 
instock=instock+Outstock; 

run; 

proc print data=work.inventory noobs; 
title 'Total Inventory'; 

run; 














更 改 后 的 数据 集 work.inventory 的 内 容 如 图 4.22 所 示 。 


Warehouse Inventory Inhouse Warehouse Inventory Overseas 


Product ID Instock | Price Product_ID Outstock 





PU03T 持 | 46.00 


P301M 23 | 575.00 
PCO2M 12 | 115.00 P003T 
P301M 














| 




















Bb 


图 4.21 两 个 数据 集 内 容 





/日 144.75 
46.00 
46 3575.00 
12 115.00 





图 4.22 更 改 后 的 数据 集 work.inventory 的 内 容 


程序 中 加 入 “instock=instock+Outstock; ”用 来 计算 instock 并 输出 到 数据 集 work.inventory 中 ， 产 品 P001R 的 instock 的 值 等 于 原 work.inventory 数 据 集中 P001R 的 instock 值 加 上 work.inventory2 


中 P001R 的 3 条 观测 的 instock 值 。 


以 上 例子 中 ， 修 改 数据 集中 的 所 有 观测 在 主 数据 集中 都 可 以 找到 对 应 的 观测 ， 当 修改 数据 集中 含有 一 些 新 观测 时 ， 可 以 使 用 OUTPUT 语 句 将 新 观测 添加 到 主 数据 集中 ， 有 具体 使 用 方法 请 查询 SAs 帮 助 文 
档 。 


4.5 ”数据 集 处 理 的 一 点 补充 


4.5.1 ”使 用 数据 集 选 项 END= 


很 多 情况 下 ， 在 进行 数据 操作 时 需要 知道 SAs 在 什么 时 候 处 理 输入 数据 集 的 最 后 一 条 观测 ， 这 时 可 以 使 用 SAs 提 供 的 数据 集 选项 END= 来 帮助 辨识 。 使 用 数据 集 选项 END= 的 基本 形式 如 下 : 


= 


.. > ”END= 变 量 ，; 








SET 数据 集 1 < 数据 集 2 数据 外 


HL 
y 
wl 
(Se) 











在 使 用 SET、MERGE、MODIFY、UPDATE 语 句 时 ， 都 可 以 使 用 该 选项 。 这 里 语句 中 的 变量 是 数值 型 的 临时 变量 ， 当 DATA 步 在 操作 数据 集 的 最 后 一 条 观测 时 ， 该 变量 的 取 值 为 1， 否 则 为 0。 临 时 变量 
可 以 在 DATA 步 中 使 用 ， 但 是 不 会 在 数据 集中 输出 。 需 要 特别 注意 的 是 ， 在 使 用 SET、MERGE、MODIFY、UPDATE 语 句 进行 多 个 数据 集 处 理 时 ， 只 有 当 DATA 步 处 理 所 有 输入 数据 集 的 最 后 一 条 观测 时 ， 该 
变量 的 取 值 才 会 由 0 变 成 1。 


例 4.13: 数据 集 work.Sales 中 记录 了 公司 每 位 员工 的 全 年 的 销售 额 ， 现 在 欲 计算 全 年 公司 的 总 销售 额 ， 并 输出 到 报表 中 。 


以 下 代码 创建 了 work.sales 数 据 集 ，Emp_1D 表 示 员 工 编号 ，Dept 表 示 员 工 所 属 部 门 ，Sales 表 示 销 售 额 。 


data work.sales; 
input Emp ID $ Dept $ Sales Genders$; 
datalines; 
ETOO1 TSG 100 M 
ED001 DSG 200 F 
ED001 DSG 135 M 
EQO001 QOSG 234 F 
ETI0O0O1 TSG 125 F 
ETOO02 TSG 98 M 
EQ002 QSG 100 M 
EQ003 QSG 98 M 
ED002 DSG 124 M 
ETOO3: TSG 123 EE 









































run; 

proc print data=work.sales; 
title "Sales'" 7; 

run; 


数据 集 work.sales 的 内 容 如 图 4.23 所 示 。 


Sales 


Emp_ID | Dept Sales | Gender 
ET001 TSG 100|M 
ED001 |DSG 200|F 
ED001 |DSG 135/M 
EQ001 |QsG 234|F 
ETO01 (TSG 125|F 
ET002 TSG 9g8M 
7/EQ002 QsSG 100 M 
|EQ003 |QsSG 9g8IM 
| EDUU2 DSL la | MM 


























ET003 |TSG 123|F 


现在 运用 END= 选 项 计算 公司 全 年 的 总 销售 额 。 





data work.total sales; 








total salestsales; 





keep total sales; 























输出 内 容 如 图 4.24 所 示 。 


Total Sales In Million 


total sales 





1337 


图 4.24 例 4.13 打 印 输出 wotk.total_sales 内 容 


上 面 这 段 代码 中 有 以 下 几 个 要 点 : 
.END=last 定 义 了 临时 变量 last， 当 SAS 在 处 理 最 后 一 条 观测 时 ，last 的 取 值 将 变 为 1。 
“total_sales+sales; ”计算 公司 的 全 年 销售 额 。 “total_sales+sales; ”的 作用 和 “tetain total _sales 0; total_sales=total_sales+sales; ”一 样 。 
.IF 语句 和 OUTPUT 语 名 判断 了 最 后 一 条 观测 ， 并 将 该 观测 输出 到 数据 集中 。 
.KEEP 语句 仅 将 需要 输出 的 total_sales 变 量 保留 在 数据 集中 。 


上 面 计 算 全 年 销售 额 的 代码 和 下 面 的 代码 等 价 。 


data work.total sales; 
set work.sales END=1last; 
retain total sales 0; 
total sales=total sales+sales; 
if last then output; 
keep total sales; 
run; 加 


























4.5.2 ”使 用 上 自动 变量 FIRST. 与 LAST. 


在 DATA 步 中 若 使 用 了 BY 语句 ，SAS 要 求 读 入 的 数据 集 必须 按 BY 变量 排序 (MODIFY 语 句 除外 ) ， 同 时，SAS 在 程序 执行 过 程 中 会 自动 生成 两 个 数值 型 临时 变量 : FIRST. 变 量 和 LAST. 变 量 ， 它 们 分 别 用 
来 辨识 BY 组 合 的 第 一 条 观测 和 最 后 一 条 观测 。 当 只 有 一 个 BY 变量 时 ， 很 容易 理解 它 的 取 值 。 


当 DATA 步 正在 处 理 该 BY 变量 值 的 第 一 条 观测 时 ，FIRST. 变 量 为 1， 否 则 为 0。 
: 当 DATA 步 正在 处 理 该 BY 变量 值 的 最 后 一 条 观测 时 ，LAST. 变 量 为 1， 否 则 为 0。 


当 有 多 个 BY 变量 时 ， 系 统 会 自动 生成 多 对 FIRST. 变 量 和 LAST. 变 量 。 例 如 ，SAS 在 执行 如 下 代码 时 ， 会 自动 生成 临时 变量 FIRST.x 和 LAST.x， 以 及 FIRST.y 和 LAST.y。 


data work.test; 
input x y $ @@; 
datalines; 
1A1LA1LB2B2C 
run; 
data work.try; 





























set work.test; 
by xXy; 

irstx=first.x; astx=last .x; 
firsty=first.y; lasty=last.y; 
































run; 


数据 集 work.try 如 图 4.25 所 示 。 


区 = WIETTABLE: York. Iry 























图 4.25 ”数据 集 work.try 内 容 


当 SAS 处 理 第 一 条 x=1 的 观测 时 ，first.x=1; 当 SAS 处 理 最 后 一 条 x=1 的 观测 时 ，last.x=1; 当 SAS 处 理 第 一 条 x=1 并 且 y= “A” 的 观测 时 ，first.y=1; 当 SAS 处 理 最 后 一 条 x= 1 并 且 y= “A” 的 观测 


Jj, last.y=1。 


例 4.14: 数据 集 work.sales 中 包含 了 每 位 员工 的 销售 额 和 员工 所 属 部 门 及 性 别 数据 ， 现 在 公司 欲 统 计 各 部 门 男 员 工 和 女 员工 的 总 销售 额 ， 并 制 成 报表 。 


首先 将 work.Sales 数 据 集 按 Dept 和 Gender 进 行 排序 ， 然 后 再 运用 选项 FIRST. 与 LAST. 计 算 各 部 门 男女 员工 的 总 销售 额 。 


proc sort data=work.sales; 

by Dept Gender; 
run; 
data work.sales dept; 

set work.sales; 

by Dept Gender; 

retain sales by dept; 

if first.Gender then sales by dept=0; 
sales by dept=sales by dept+sales; 
if last.Gender; 
keep Dept Gender sales by dept; 




















rn 
proc print data=work.sales dept noobs; 

title 'Sales by Department by Gender'; 
run; 





前 出 内 容 如 图 4.26 所 示 。 





Sales by Department by Gender 


Deplt Lender sales_ by _dept 
2U0 
2 9 
234 
198 
< 十 吕 
198 


i 
市 
二 | | 二 | 11| 三 | 1 


图 4.26” 例 4.14 打 印 输 出 内 容 


“if last.gender; ”是 “if last.gender then output; ”的 省 略 写法 。 这 里 使 用 了 RETAIN 语 句 ， 使 得 在 DATA 步 的 循环 中 Sales_ by dept 的 值 可 以 保留 在 PDV 中 。 


BY 语句 创建 的 这 两 个 临时 变量 不 仅 可 在 SET 语句 读 入 单个 数据 集 时 使 用 ， 在 进行 多 个 数据 集 的 拼接 时 也 常 使 用 。 


4.5.3 ”使 用 SET 语句 中 的 选项 POINT= 和 NOBS= 


在 DATA 步 使 用 SET 语句 读 入 数据 集 时 ， 可 使 用 选项 POINT= 指 明 要 读 入 的 观测 序号 。 使 用 选项 POINT= 的 基本 语法 如 下 : 





ET 数据 集 “POINT= 指 针 变 量 ; 


CD 





其 中 指针 变量 用 来 指明 要 读 入 特定 序号 的 观测 ， 必 须 在 SET 语句 执行 前 对 它 赋 值 。 在 有 SET 语句 的 DATA 步 程序 中 ， 系 统 将 反复 执行 DATA 步 的 语句 ， 直 到 遇 到 数据 中 的 文件 结束 标志 。 但 是 在 使 用 选项 
POINT= 时 ， 系 统 会 直接 读 入 指针 指向 的 记录 ， 这 就 很 可 能 导致 系统 不 会 遇 到 文件 结束 标志 ， 容 易 陷入 死 循环 。 因 而 在 按 指针 读 入 数据 的 程序 中 ， 经 常会 用 到 STOP 语 句 。 


如 果 要 取得 数据 集中 观测 的 个 数 ， 可 以 使 用 SET 语 句 中 的 选项 NOBS=， 语 法 如 下 : 


NOBS= 变 量 ， 








其 中 ， 变 量 同样 是 临时 变量 ， 在 DATA 步 的 编译 阶段 赋值 。 
例 4.15: 现 有 一 个 数据 集 work.Whole， 欲 从 其 中 随机 抽取 1/3 的 观测 用 来 建立 模型 。 


示例 代码 如 下 : 


data work.sample; 
do i=1] to total by 3; 
set work.whole point=i nobs=total; 
output; 

















运行 这 个 代码 ， 系 统 将 从 数据 集 work.sample 中 依次 抽出 第 1 条 观测 、 第 4 条 观测 ...， 并 存储 到 | 数据 集 work.sample， 直 到 系统 处 理 完 数据 集中 的 全 部 观测 。 


4.5.4 ”使 用 多 个 SET 语 句 
在 SAS 中 实现 同一 个 操作 ， 往 往 可 以 有 多 种 方法 。 作 为 补充 ， 这 里 将 介绍 如 何 运 用 SET 语 句 进行 数据 集 横向 合并 。 使 用 SET 进 行 横向 合并 的 一 个 好 处 是 ， 在 合并 之 前 不 需要 将 输入 数据 集 进行 排序 。 
例 4.16: 以 下 是 使 用 多 个 SET 语 句 的 一 个 简单 例子 。 


data work.datal; 
input x y QQ@; 
datalines; 

1 和 -和 .3 3. 要 


run; 

data work.data2; 
input x z QQ@; 
datalines; 

1 3:.354254 


run; 

data work.combined; 
set work.datal; 
set work.data2; 





run; 
proc print data=work.Combined; 
title 'Using Two Set in Data Step'; 





run; 





数据 集 work.data1 和 数据 集 work.data2 的 内 容 如 图 4.27 所 示 。 


合并 后 的 数据 集 work.combined 如 图 4.28 所 示 。 


Ce VIETTAHLE- Tork. Datal VIETTABLE: Tork. Data? 


| 














图 4.27 ”数据 集 wotk.datal 和 wotk.data2 的 内 容 


Using Two Set in Data Step 


Dbs | XYWY 
1|1|2|3 
过 | 了 | 了 | 上 
3|4|4|2 


图 4.28 合并 后 的 数据 集 内 容 


在 使 用 多 个 SET 语句 时 ，PDV 中 的 变量 是 读 入 数据 集 的 并 集 。 首 先 ，DATA 步 从 第 一 个 SET 语句 中 读 入 第 一 条 观测 ， 并 复制 到 PDV 中 ; 然后 从 第 二 个 SET 语句 中 读 入 第 一 条 观测 ， 并 复制 到 PDV 中 。 当 输 
入 数据 集中 有 同名 变量 时 ， 后 读 入 的 数据 集 的 变量 值 覆 盖 前 一 个 数据 集中 同名 变量 的 值 。 新 数据 集中 的 观测 数 是 所 有 输入 数据 集中 的 观测 数 的 最 小 值 ， 因 为 当 DATA 步 遇 到 第 一 个 文件 结束 标志 时 ，DATA 步 
就 结束 执行 。 

例 4.17: 在 sashelp.class 中 记录 了 一 个 班级 学 生 的 姓名 、 性 别 、 年 龄 、 身 高 和 体重 信息 ， 现 在 针对 每 个 小 朋友 ， 欲 找 出 比 其 年 龄 大 的 小 朋友 的 姓名 和 人 年龄， 并 制作 成 报表 展现 出 来 。 

示例 代码 如 下 : 


data work.class expang; 
set sashelp.class (keep=name age); 
do i=1 to nobs; 
set sashelp.class (keep=name age rename= (name=nameolder age=ageolder)) 
nobs=nobs point=i; 
f age lt ageolder then 
output; 





Ei: 


end; 
run; 
proc sort data=work.class expand; 
by name age ageolder nameolder; 
run; 
proc print data=work.class expang; 
title "Students"; 
by name age; 
id name age; 
run; 








图 4.29 是 部 分 输出 报告 。 


Villlam 






































图 4.29 ” 例 4.17 打 印 输 出 内 容 


这 里 在 PRINT 过 程 中 使 用 了 BY 语句 和 ID 语 句 ，BY 语 句 可 使 报表 按 BY 变 量 组 输出 列表 ，1D 语 句 中 的 变量 用 来 代 蔡 观测 序号 ， 置 于 输出 的 最 左 侧 。PRINT 过 程 将 在 第 5 章 中 详细 介绍 。 


4.5.5 ”使 用 HASH 对 象 处 理 多 个 数据 集 


本 章 的 前 面部 分 已 经 介绍 了 运用 SET 语 句 和 MERGE 语 句 进行 数据 集 之 间 的 拼接 ， 这 里 将 通过 实例 介绍 如 何 运 用 HASH 对 象 实 现 这 类 操作 。 相 较 于 SET 语 句 和 MERGE 语 句 ， 使 用 HASH 对 象 有 两 个 优点 ， 
第 一 ， 它 对 数据 集 的 排序 没有 要 求 ， 第 二 ， 由 于 HASH 对 象 是 放 入 内 存 中 的 数据 集 ， 因 此 在 内 存 允 许 的 情况 下 ， 运 用 HASH 对 象 进行 数据 集 之 间 的 关联 时 其 效率 更 高 。 


一 般 在 观测 数 很 多 的 数据 集 与 观测 数 较 少 的 数据 集 进行 匹配 时 ， 运 用 HASH 对 象 将 较 小 的 数据 集 加 载 到 内 存 中 ， 可 以 非常 快速 地 完成 匹配 。 


接 下 来 首先 介绍 在 DATA 步 中 如 何 定义 HASH 对 象 。 


1. 定 义 HASH 对 象 


使 用 HASH 对 象 时 ， 首 先 要 定义 HASH 对 象 ， 基 本 形式 如 下 : 

















DECLARE object 0 《< 主题 : 内 容 1 <， 主 题 2: 内 容 2，...>>) ; 
HASH 对 象 名 . 

















主 
DEFINEKEY (< 主题 < 主题 2: 内 容 2，...>>) ， 
HASH 对 象 名 .DEFINEDATA < 主题 j 内 容 1 <， 主 题 2: 内 容 2，...>>) ， 
HASH 对 象 名 .DEFINEDONE () ; 





























里 第 一 行 定 义 了 HASH 对 象 名 称 ，object 可 以 是 HASH 或 HITER，HASH 对 象 名 由 编程 者 定义 。 
第 二 行 和 第 三 行 分 别 通 过 HASH 对 象 名 .method 的 语法 定义 了 HASH 对 象 的 KEY 变 量 和 DATA 变 量 ， 这 些 变 量 都 是 DATA 步 中 的 变量 。 
第 四 行 表 明 HASH 对 象 定义 结束 。 


例 4.18: 现在 有 一 个 数据 集 work.Sales， 其 中 包含 了 员工 编号 Emp_1D、 员 工 部 门 Dept、 销 量 Sales、 产 品 编号 Product_id， 另 一 个 数据 集 work.Product 中 包含 了 Product id、Product_name 和 
Description 3 个 变量 ， 现 在 欲 将 Product name 和 Description 加 到 数据 集 Sales 中 。 


以 下 代码 生成 Sales 和 Product 中 的 部 分 数据 。 


data work.sales; 
input Emp ID $ Dept $ Sales Product ID $; 
datalines; 
ETOOl1 TSG 100 POO1 
ED001 DSG 120 P00] 
ET0O01 TSG 50 P002 
ECO01 CSG 230 P004 
EQO001 QSG 150 P003 
ETO0O01 TSG 210 P004 
ETOO02 TSG 40 P002 
ET003 TSG 150 P003 
run; 
data work.product; 
infile datalines dsgd; 
length Product ID $4 Product Name Description $35; 
input Product ID $ Product Name $ Description $; 
datalines; | 
POO01,ManufacturingIndustry Solutions,ManufacturingIndustry Solutions V2 
P002, Logistics Solutions,Logistics Solutions V1 
PO03,Financial Service Solutions,Financial Service Solutions V3 
P004, Insurance Solutions,Insurance Solutions V2 


run; 





























































































































以 下 是 通过 HASH 对 象 实现 匹配 的 完整 代码 。 


data work.sales description (drop=ErrorDesc) 
work .exception; 
length Product ID $8 Product Name Description $35; 
if N =1 then 




















/*Define hash objective*/ 
declare hash product desc(dataset:"work.product"); 
Product desc.definekey('Product ID'); 
product desc.definedata('Product Name', 'Description'); 
product desc.definedone () ; 加 
call missing (Product ID,Product Name,Description); 

end; 

set work.sales; 

/*Retrieve matching data*/ 

re roc desc.find(); 

if rc = 0 then 

output sales description; 






































else 
do 





ErrorDesc="No Product Description"; 
output exception; 
end; 
drop rc; 
工 UL7 


SAS 处 理 以 上 程序 的 步骤 如 下 : 


1) 在 编译 阶段 ，SAS 读 入 数据 集 work.Sales 中 变量 及 新 创建 的 变量 的 描述 部 分 ， 并 将 其 置 于 PDV 中 。PDV 如 下 : 


Product ID Product Name Description TC EITOTDesc _N 


2) 在 执行 阶段 ， 当 _N_=1 时 ， 定 义 HASH 对 象 并 加 载 数据 到 HASH 对 象 中 。Call Missing0 语 句 可 以 消除 日 志 中 部 分 变量 没有 初始 化 的 信息 。 此 时 ，PDV 如 下 : 
Product ID Product Name Description ErrorDesc 


EE 


HASH 对 象 product_desc 如 下 : 


KEY: Data: Data: 
Product ID Product Name Description 


Manutacturing Industry Solutions Manufacturing Industry Solutions V2 
Logistics Solutions Logistics Solutions V1 


Financial Service Solutions Financial Service Solutions V3 
POO04 Insurance Solutions Insurance Solutions V2 


3) 读 入 work.Sales 数 据 集 的 第 一 条 观测 ， 并 置 入 PDV。PDV 如 下 : 





Product ID Product Name Description ErrorDesc 
Po | | |- -Cr rr 


4) 系统 调用 product_ desc.find0 在 Hash 对 象 中 检索 数据 。product_desc.find(0 可 以 指定 Sales 数 据 集中 的 KEY 变 量 ， 当 未 指定 任何 KEY 变 量 的 时 候 ， 系 统 默认 sales 数 据 集 的 KEY 变 量 和 HASsH 对 象 的 
KEY 变 量 同名 。 当 系统 检索 到 HASH 对 象 中 存在 的 某 个 KEY 值 和 PDV 中 KEY 变 量 的 值 相等 时 ， 则 返回 代码 rc 的 取 值 为 0%， 同 时 将 HASH 对 象 中 对 应 的 DATA 变 量 的 值 读 入 PDV 中 。 此 时 ，PDV 如 下 : 


Product ID Product Name Description rc ErrorDesc NN 


Pol | Manvfacturing.. Mamfacuing V2 | …|o| | 


5) 系统 判断 rc=0， 将 PDV 中 的 数据 写 入 数据 集 work.sales_ description 中 。 





6) 系统 读 入 Sales 数 据 集 的 第 二 条 观测 ， 并 重复 第 三 步 到 第 五 步 的 操作 ， 直 到 系统 读 入 Sales 数 据 集中 的 所 有 观测 。 


处 理 后 的 数据 集 work.Sales_Description 内 容 如 图 4.30 所 示 。 


FE YIETWTAHIE- York. Sales = 


Product |D Product_ Name Descrption 
Manufacturinglmdustry Solutions Manufactuninalndustmy Solutions V2 
anutacturinglndustry Solutions Manulactunnaglrdustry Solutions Ve 
Logistics Solubtions Logistics Solutions V1 
Insurance Solutions Insurance Solutions we 
Financial Service Solutions Financial Service Solutions Y3 


Inasurance S olutions Insurance Salubons Y2 
Logistics solutions Logistics Solutions V1 
Financial Service Solutiors Financial Service Solutions 3 





图 4.30 处理 后 的 数据 集 wotk.Sales_Desctiption 内 容 


@ 注 意 ”在 上 述 程序 中 ， 笔 者 将 没有 找到 Product_Name 和 Desctiption 的 销售 记录 输出 到 了 数据 集 wotk.exception 中 ， 并 且 创 建 了 一 个 新 变量 保存 未 匹配 成 功 的 原因 。 这 种 方法 便于 开发 人 员 调 试 程序 ， 找 到 
数据 中 存在 的 问题 。 


2. 使 用 .REPLACE 操 作 


使 用 .REPLACE 可 以 替换 已 经 加 载 入 内 存 中 的 HASH 对 象 的 数据 。 基 本 形式 如 下 : 








HASH 对 象 名 .REPLACE< 主 题 1: 内 容 1 <， 主 题 2: 内 容 2，..>>) ， 

















例 4.19: 公司 现 有 库存 1000 台 汽车 ， 每 台 车 可 以 发 往 全 国 各 个 仓库 ， 但 是 发 往 每 个 仓库 给 公司 带 来 的 边际 效益 不 一 样 ， 而 且 每 个 仓库 都 有 一 定 的 容量 限制 。 现 在 公司 必须 决定 往 每 个 仓库 发 多 少 辆 车 ， 
同时 要 使 整个 公司 的 效益 最 高 。 


数据 集 work.expected _profit 中 包含 了 每 个 仓库 每 增加 一 台 车 所 带 来 的 收益 ，warehouse id 代表 了 仓库 代码 ，profit margin 代 表 每 收 到 一 台 车 能 带 来 的 收益 。 数 据 集 work.warehouse_constraint 中 
包含 了 每 个 仓库 的 容量 限制 。 


图 4.31 中 是 work.expected _profit 数 据 集 中 的 部 分 数据 和 work.warehouse_constraint 数 据 集 的 全 部 数据 。 


Ee VIETTARLE.- York A 


5 1468047304 

47DDr5o 
34.263624039 
33,274969429 
Ja.5dj247266 
31,.630764118 








DD YIETTABLE. Work. 1 arehouse_ constralnt 
3 四 0430524 L \ 
31.605954985 
30.828048787 
JU Ubbb531 





图 4.31 两 个 数据 集 部 分 内 容 


从 数据 集 Work.Expected_profit 中 可 以 看 出 ， 对 于 不 同 的 仓库 来 说 ， 增 加 一 台 和 车 带 来 的 效益 是 不 一 样 的 。 例 如 ， 对 于 仓库 VSC003 和 VSC002 来 说 ， 增 加 第 一 台 车 带 来 的 边际 效益 分 别 为 35.498 和 
34.437; 对 于 同一 个 仓库 ,每 增加 一 台 和 车 带 来 的 边际 效益 也 是 不 一 样 的 ， 例 如 ， 对 于 仓库 VSC003 来 说 ， 增 加 第 一 台 车 时 带 来 的 边际 效益 是 35.498， 在 此 基础 上 增加 第 二 台 和 车 带 来 的 边际 效益 是 31.611,， 符 
合 边 际 效益 递减 规律 。 


因此 在 分 配 的 时 人 息 ， 为 了 实现 整个 公司 的 效益 最 高 ， 分 配 的 原则 就 是 在 仓库 容量 允许 的 情况 下 ， 将 每 台 车 都 分 配给 边际 效益 最 高 的 仓库 。 以 下 SAS 代 码 可 以 实现 该 目标 。 


data work.allocation; 
retain total cars before 1000; 
J warehouse | id $6; 

= then 


do; 


























declare hash constraint (dataset: "work.warehouse constraint");} 
constraint .definekey ('warehouse id'); 本 
constraint.definedata('capacity'); 

constraint.definedone () ， 

call missing (warehouse id,capacity); 




















engd; 
set work.expected profit; 
rc = Conetralnb et ind(); 
if rc = 0 and capacity>=1 and total cars before>=1 then 
do; 



































capacity=capacity-1; 
total cars after=total cars before-!] 
rc=constraint.replace (key: warehouse i data: capacity); 
if rc=0 then 

do; 














output work.allocation; 
total cars before=total cars before-l1; 




















else put "Error: Replace capacity failed!"; 
eng; 
else if rc ne 0 then 
put "Error: Failed to find warehouse capacity!"; 
keep warehouse id capacity profit margin total cars before total cars after; 


























分 配 后 的 allocation 数 据 集 如 图 4.32 所 示 。 


Os VIETTABLE: Tork. Allocatli on 


se epee 


1U00 YasCUDy 9 35. 析 加 47304 
dd Yo LUUe 234.43790795 
998 VSLUUz 199 34.269624039 
dd7 YoUDe 97 33,27498b94d29 
dd9b VSLUUe 136 32,5g3ed4rebb 
995 VSLUU1 349 J1.BI07B4119 
d94 VSDUUa Pqe 31.6B10811193 
4333 VoLUD3 dr J1,bl04d092d 
dd2 VSCUD3 dB 41.B0n9S5 .4885 
991 YL0D 20,.828048787 
村 3 VsG00l 本 鸭 g5e] 
dd VsLuUUz < 了 3300345643 
368 VSL003 293.900403201 
367 VSCOM 229. 540009703 
dB VsLUUz 29,50B719645 
dB5 VSLUUz a8.0015951137 
404 VsC00i 3 3 
363 235407117 

28,118993175 
ml et: 





图 4.32 ”数据 集 wotk.allocation 内 容 
其 中 : 
: Total_cat_befote 表 示 分 配 前 的 车 辆 ，Total_cats_aftet 表 示 每 分 配 一 台 车 后 所 剩余 的 车 辆 。 


:Cabacity 表 示 仓 库 每 收 到 一 台 车 后 的 剩余 容量 。 例 如 ， 在 分 配 前 车 辆 总 数 为 1000 台 ， 第 一 台 车 分 配给 VS003， 剩 余 的 车 辆 总 数 为 999 台 ， 仓 库容 量 由 原来 的 600 降 低 为 599。 每 分 配 一 台 车 ， 系 统 都 调 
用 .REPLACE 更 新 HASH 对 象 中 仓库 容量 的 数据 。 


4.6 ”本章 小 结 


本 章 前 半 部 分 从 PDV 的 角度 ， 详 细 介绍 了 在 DATA 步 中 使 用 SET 语句 和 MERGE 语 句 进 行 两 个 及 多 个 数据 集 纵向 串 接 和 横向 合并 的 原理 ， 并 比较 了 使 用 SET 语句 和 APPEND 过 程 进行 数据 集 纵向 串 接 的 异 
。 人 在 介绍 数据 集 横向 合并 时 ， 分 别 介绍 了 4 种 不 同情 形 下 DATA 步 的 处 理 原理 ， 这 4 种 不 同 的 情形 分 别 是 : 不 使 用 BY 语句 的 情形 、BY 变 量 值 在 所 有 数据 集中 唯一 的 情形 、BY 变 量 值 在 某 一 数据 集中 存在 重复 
的 情形 以 及 BY 变量 值 在 多 个 数据 集中 存在 重复 的 情形 。 


本 章 后 半 部 分 通过 示例 介绍 了 用 于 数据 集 更 新 和 更 改 的 两 个 语句 : UPDATE 语 句 和 MODIFY 语 句 ， 并 补充 介绍 了 数据 集 处 理 的 一 些小 技巧 。 


本 章 最 后 一 小 节 简要 介绍 了 HAsH 对 象 的 处 理 原理 。 运 用 HASH 对 象 可 以 简便 高 效 地 实现 数据 集 间 比较 复杂 的 操作 ， 有 兴趣 的 读者 可 以 参考 SAs 帮 助 文 档 进行 更 加 深入 的 学 习 。 


第 5 草 ”数据 汇总 与 展现 
在 前 面 的 章节 中 ， 介 绍 了 如 何 将 多 个 数据 集中 的 数据 整合 到 一 个 数据 集中 ， 本 章 将 在 此 基础 上 介绍 如 何 利用 SAS 进 行 数据 的 汇总 与 展现 。 在 SAs 中 对 数据 进行 汇总 与 展现 时 主要 有 两 种 形式 : 一 类 是 列 
表 ， 一 类 是 图 形 。 


本 章 内 容 可 以 分 为 3 部 分 ， 第 一 部 分 介绍 通过 列表 形式 进行 数据 汇总 与 展现 的 PROC 步 ， 包 括 PRINT 过 程 和 TABULATE 过 程 ; 第 二 部 分 介绍 SAS/GRAPH 中 常用 的 制作 图 形 的 PROC 步 ， 包 括 GPLOT 过 程 
和 GCHART 过 程 ; 最 后 一 部 分 介绍 SAs 中 ODS 输出 控制 的 初步 内 容 。 


5.1 通过 PRINT 过 程 制作 报表 


PRINT 过 程 是 SAs 中 用 于 输出 数据 集 内 容 的 最 简单 常用 的 过 程 ， 它 可 将 选择 的 观测 和 字段 以 简单 的 和 矩形 表格 形式 输出 。 在 前 面 章 节 的 示例 中 ， 都 是 用 它 来 显示 对 数据 加 工 处 理 的 结果 的 。 默 认 设置 
下 ，SAS 9.3 及 之 后 的 版 本 中 PRINT 过 程 的 结果 会 输出 到 HTML 文 件 中 。 


5.1.1 制作 简单 报表 


使 用 PRINT 过 程 最 简单 的 语法 形式 如 下 : 





PROC PRINT <DATA= 数 据 集 >; 
RUN; 





当选 项 DATA= 被 省 略 时 ， 系 统 默认 输出 最 新 创建 的 数据 集 。 为 了 保证 代码 的 清晰 易 读 ， 不 建议 省 略 。 也 可 以 使 用 数据 文件 地 址 和 全 称 来 代 蔡 数据 集 。 


例 5.1: 数据 集 ex.sales quater1 代 表 某 公司 2012 年 第 一 季度 的 销售 数据 ，Emp_ID 代 表 员 工 ID，Emp_Name 代 表 员 工 姓 名 ，Year 代 表 年 份 ，Quarter 代 表 季 度 ，Sales 代 表 销 售 数 量 ，Price 代 表 价 
格 ，Amount 代 表 销 售 额 。 现 在 要 用 PRINT 过 程 输出 它 的 内 容 。 


示例 代码 如 下 : 


proc print data=ex.sales quarterl; 
title 'Ex.sales quanterl'; 
run; 








输出 内 容 如 图 5.1 所 示 。 


Ex.sales quanter] 





] Emp_ID Emp Name Year Quarter Month Sales Price amounit 


1 | ETO01 Jacob Adams 2012 1 1 10 245 245.00 
2 | ED001 Emily Anderson 2012 1 1 9 持 3 310.30 
| ECOOT1 Michael Armold © 2012 1 1 ls 14.689 208.4—5 
雪 | EQOO1 Hannah Baker | 2012 1 1 了 2 13 416.00 
5 | ETOO1 Joshua Carter 2012 1 1 33 | 452 1491.60 
6 | ETOO02 Mat Dale 2012 1 1 23 45 1035.00 


图 5.1 例 5.1 打 印 输 出 数据 集 部 分 内 容 


图 5.1 是 示例 中 的 一 部 分 输出 结果 ，TITLE 语 句 中 指明 了 输出 报表 的 标题 ， 最 左 侧 的 Obs 代 表 观 测 在 数据 集中 的 序号 ， 数 据 集 中 的 所 有 变量 和 观测 都 按 观 测序 号 依次 输出 。 


1. 使 用 选项 OBS= 修 改观 测序 号 列 标签 


在 PRINT 过 程 中 可 利用 选项 OBS= 来 修改 最 左 侧 观 测序 号 一 列 的 标签 。 例 如 : 


proc print data=ex.sales quarterl obs="'Observation Number'; 
title 'Ex.sales quanterl'; 
PUN 








前 出 内 容 如 图 5.2 所 示 。 


Ex.sales guanter1 





Observation IEmp_ID Emp_Name Year Quarer Month Sales Pnce amount 


1| EToo1 JacobAdams | 2012 1 1 10| 245| 245.00 
| EDOO] Emily Anderson | 2012 1 1 9 .5 310.350 
了 | EC001 | Michael Amold | 2012 15| 13.89 | 208.35 


= 
一 一 和 


图 5.2 ”使 用 选项 OBS= 打 印 输出 数据 集 部 分 内 容 


2. 使 用 NOOBS 选 项 不 显示 观测 序号 列 


如 果 不 需要 在 输出 结果 中 显示 观测 序号 列 ， 则 可 以 使 用 NOOBSs 选 项 。 例 如 








proc print data=ex.sales quarterl noobs; 
title 'Ex.sales quanterl'; 
run; 


输出 内 容 如 图 5.3 所 示 。 


Ex.sales quanter1 


Emp_ID Emp_ Name Year Quarter Month Sales Pnice amount 
ETOO1 Jacob Adams 2012 1 1 10 243 245.00 
EDOO1 Emily Anderson | 2012 1 1 9 把 .3 310.30 
ECOO1 Michael Amold | 2012 1 1 13 | 14 的 | 208.35 


图 5.3 ”使 用 NOOBS 选 项 打印 输出 数据 集 部 分 内 容 


3. 使 用 ID 语句 在 输出 中 取代 观测 序号 列 


在 有 些 数据 集中 ， 每 条 观测 都 有 自己 的 关键 字段 或 标识 ， 例 如 员工 ID、 姓 名 。 因 此 在 输出 中 ， 常 希望 用 这 些 标识 观测 的 变量 代 蔡 观 测序 号 列 置 于 输出 的 最 左 列 。 对 于 这 种 情况 ， 可 使 用 ID 语句 实现 。1D 
语句 的 基本 语法 如 下 : 





ID 变量 1 < 变量 2 变量 3 .>; 








1D 语句 中 的 变量 可 以 有 多 个 ， 当 有 多 个 变量 时 ， 这 些 变量 将 按照 它们 在 1D 语句 中 出 现 的 顺序 ， 依 次 置 于 输出 的 最 左 侧 。 
例 5.2: 在 ex.sales_quarter1 的 输出 中 ， 用 Emp_lID 和 Emp_Name 代 蔡 观 测序 号 置 于 最 左 侧 的 列 。 


示例 代码 如 下 : 


proc print data=ex.sales quarterl; 
title 'Ex.sales quanterl with ID'; 
id emp id emp name; 

run; 











输出 内 容 如 图 5.4 所 示 。 


Ex.sales quanterl with ID 


Emp_ID Emp_Name Year | Quarter Month Sales Pnce amount 
ET001 Jacob Adams | 2012 1| 1| 10 245| 245.00 | 
ED001 | Emily Anderson ] 2a012 1 1 9 .3 4310.50 
ECOO1 | Michael Amaold | 2012 1 1 15 | 13.89 | 208.35 


图 5.4 例 5.2 打 印 输出 数据 集 部 分 内 容 
从 图 5.4 可 以 看 到 ，Obs 列 在 输出 中 没有 显示 ， 取 而 代 之 的 是 Emp_ID 和 Emp_Name 位 于 左 侧 的 列 。 
4. 使 用 VAR 选 择 输出 的 变量 
在 默认 情况 下 ，PRINT 过 程 会 输出 数据 集中 的 所 有 变量 。 为 了 选择 所 要 输出 的 变量 以 及 输出 变量 的 排列 顺序 ， 可 以 使 用 VAR 语 句 。 基 本 语法 如 下 : 


VAR 变量 1 < 变量 2 变量 3 .>; 











VAR 语 句 中 指明 了 需要 输出 的 变量 ， 以 及 在 输出 报表 中 这 些 变量 从 左 到 右 出 现 的 顺序 。 


5. 使 用 WHERE 语句 选择 输出 的 观测 


使 用 WHERE 语句 的 基本 语法 如 下 : 





WHERE 表达 式 ，; 











WHERE 语句 的 作用 是 只 输出 满足 表达 式 条 件 的 观测 ， 表 达 式 可 以 是 算术 表达 式 或 逻辑 表达 式 。 如 果 表 达 式 是 变量 和 字符 的 比较 ， 则 字符 必须 用 单 引号 或 双 引 号 括 起 来 ， 并 且 区 分 大 小 写 。 


例 5.3: 从 ex.sales quarter1 中 输出 Month=2 的 观测 ， 并 上 且 在 输出 报表 中 依次 仅 包 含 Emp_ID、Emp_Name、Month、Sales 和 Amount 5 


示例 代码 如 下 : 





proc Print data=ex.sales quarterl noobs; 





title 'Monthly Sales'; 





var emp id emp name month sales amount; 





where month=2; 
run; 





输出 内 容 如 图 5.5 所 示 。 


当 使 用 WHERE 语句 时 ，SAS 只 会 读 取 符合 WHERE 语句 条 件 的 观测 ， 这 可 以 提高 运行 效率 。 为 了 实现 对 观测 的 选择 ， 也 可 以 使 用 数据 集 选项 WHERE=。 上 述 代 码 等 价 于 以 下 代码 : 


proc print data=ex.sales quarterl (where=( month=2)) noobs; 








title 'Monthly Sales'; 


var emp id emp name month sales amount; 


run; 


6. 使 用 数据 集 选 项 FIRSTOBS= 和 OBS= 


当 指 定 输 出 特定 观测 序号 的 观测 时 ， 可 以 使 用 数据 集 选 项 FIRSTOBS= 和 OBS=。 这 两 个 选项 可 以 单独 使 用 ， 也 可 以 联合 使 用 。 语 法 如 下 : 


数据 集 (FIRSTOBS= n1); 
数据 集 (OBS= n2) ; 
数据 集 (FIRSTOBS=n1 ”OBS=n2) ， 

















其 中 ， 选 项 FIRSTOBS= 表 示 输 出 的 第 一 条 观测 的 序号 为 n1， 选 项 OBS= 表 示 输 出 的 最 后 一 条 观测 的 序号 为 n2。 


` 单独 使 用 选项 FIRSTOBS= 时 ， 系 统 会 输出 序号 从 nl 开始 的 所 有 观测 。 


` 单独 使 用 选项 OBS= 时 ， 系 统 会 输出 前 n2 条 观测 。 


: 联合 使 用 时 ， 系 统 会 输出 序号 从 hn1 开 始 到 hn2 为 止 (包含 nb2) 的 观测 ， 所 以 要 求 选 项 FIRSTOBS> 选 项 OBS， 和 否则 系统 会 报错 。 


例 5.4: 输出 数据 集 ex.sales quarter1 中 的 第 3~ 5 条 观测 。 


示例 代码 如 下 : 














proc print data=ex.sales quarterl (firstobs=3 obs=5); 


title 'Observation: 3 to 5'» 





Var emp id emp name month sales amount; 


run; 





输出 内 容 如 图 5.6 所 示 。 


Empo ID 
ETOO1 
EDOOT 
ECOOT 
EQOO 
ETOO1 





| 


Monthlv Sales 


Emp Name 
Jacob Adaims 
Emily Anderson 
Michael Amold 
Hannah Baxer 
Joshua Carner 


图 5.5 例 5.3 打 印 输出 数据 集 内 容 


32 
33 
23 
24 
45 


Month Sales | amount 


416.0 
1491.6 
1035.0 

312.0 
1332.5 


Observation: 3 to 5 


Emp Name Month Sales amount 
Michael Amald 1 15 | 208.35 


: Hannah Baker 1 32 





Joshua Carter 1 了 3 





图 5.6 例 5.4 打 印 输出 数据 集 内 容 
输出 中 仪 包含 观测 序号 为 3、4、5 的 观测 。 
5.1.2 ”制作 增强 型 报表 
在 使 用 PRINT 过 程 时 ， 还 可 以 使 用 SUM 语 句 、BY 语 句 和 SUMBY 语 句 来 对 变量 进行 分 组 和 汇总 ， 增 加 报表 输出 的 信息 。 
1. 使 用 SUM 语 句 对 变量 进行 求 和 


在 报表 中 除了 可 以 显示 数据 集中 的 值 ， 还 可 以 使 用 SUM 语 句 来 进行 汇总 和 分 组 汇总 。 语 法 如 下 : 





SUM ”变量 1] < 变量 2 变量 3 ... >; 





SUM 语 句 中 可 以 有 多 个 变量 ,但 是 必须 是 数值 型 变量 。 


例 5.5: 接着 例 5.3 输 出 数据 集 ex.sales quarter1 中 Month= 2 的 观测 ， 并 计算 2 月 的 Sales 总 和 及 Amount 总 和 。 


proc print data=ex.sales quarterl noobs; 
title 'Monthly Sales for Total'; 

var emp id emp name month sales amount; 

where month=2; 

sum sales amount; 

run; 

















输出 内 容 如 图 5.7 所 示 。 


Monthly Sales for Total 


Emp_ID Emp Name Month Sales amount 
ET001 | Jacob Adams 2| 32 416.0 
ED001 | Emily Anderson 2| 33| 1491.6 
EC001 | Michael Amold 2| 23| 1035.0 
EQOO Hannah Baker 2 24 312.0 
ET001 | Joshua Carter 2 





图 5.7 例 5.5 打 印 输 出 数据 集 内 容 


2. 使 用 BY 语句 对 变量 进行 分 组 汇总 


例 5.6: 输出 数据 集 ex.sales quarter1 中 属于 部 门 TSG 的 员工 的 观测 ， 并 按 员工 、 按 月 计算 Sales 的 和 及 Amount 的 和 ， 最 后 给 出 所 有 Sales 的 总 和 及 Amount 的 总 和 (属于 部 门 TSG 的 员工 的 Emp_ID 中 第 


二 个 字符 是 T) 。 


这 时 就 需要 在 使 用 SUM 语 名 的 同时 使 用 BY 语句 了 ， 使 用 BY 语句 后 ，SUM 语 句 的 功能 就 是 按照 BY 变量 分 组 ， 然 后 计算 每 个 BY 组 合 中 指定 变量 的 合计 ， 以 及 所 有 观测 的 总 和 。 和 上 一 章 中 讲 的 一 样 ， 在 使 
用 BY 语句 时 ， 数 据 集 必须 已 经 按照 BY 变量 排 过 序 。 这 里 ， 数 据 集 ex.sales_quarter1 并 没有 按照 Emp_lID 和 Month 排 序 ， 需 要 使 用 SORT 过 程 进行 排序 ， 并 将 排序 后 的 数据 集 写 出 到 数据 集 
work.sales_quarter1 中 。 示 例 代 码 如 下 : 





proc sort data=ex.sales quarterl out=work.sales quarterl; 
by Emp ID Month; 














run; 

proc print data=work.sales quarterl noobs n='Sales Transactions' 'Total Sales Transactions'; 
title 'Emp Monthly Sales for Total'; 
var sales amount; 
where substr (emp id,2,1)="T"; 

















run; 


前 出 内 容 如 图 5.8 所 示 。 


Emp Monthly Sales for Total 


Emp ID=ETOO1 Month=1 


=ales amMmount 
10 245.0 
33 91.6 
1491 对 Emp ID=ET001 和 Month=1 的 
43| 17365.6 本 


观 ;i 则 进行; 丁 让 训 局 


ales Transactionrs2? 





Emp_ID=ETOOT Month=2 


SaAles 
了 二 引 16 .说 


mouUNnt 
对 ee D=ET001 和 Month=2 的 
45| 1552.5 观测 进行 汇总 
77 ”1968.5 


i120 34705.1 


对 所 有 Emp ID=ET001 的 观测 进 


SHHes Transactionsz 


. 行 汇总 


Ei 





Emp_ID=ETO003 Month=1 


5 到 | 本 到 ET 
2d 于 本 .二 
1 二 本 | 


Emp_IDsE1T004 Month=.s 


sales amount 
10 1 0 

3 .0d 起 
212 | 5717.0 


HES | rarsactonsl] 
Toual Sades Tiatsactorse 
图 5.8 例 5.6 打 印 输出 内 容 
在 上 面 的 代码 中 ， 有 以 下 两 点 需要 注意 : 
. 在 BY 语句 中 用 了 Emp_ID 和 Month 两 个 变量 ， 并 相应 地 在 VAR 语 名 中 将 这 两 


个 变量 去 除 掉 了 ， 避 免 报 表 中 这 两 个 变量 重复 输出 。 


. 使 用 了 选项 N= 来 输出 每 个 BY 组 合 中 的 观测 数 以 及 整个 数据 集 的 观测 数 ， 每 个 BY 组 合 中 的 观测 数 以 第 一 段 文本 Sales Transactions 为 标签 ， 输 出 在 每 个 BY 组 合 的 最 后 一 行 ， 整 个 数据 集 的 观测 数 以 第 二 段 


文本 Total Sales Transactions 为 标签 ， 输 出 在 报表 的 最 后 一 行 。 


在 例 5.6 中 ， 由 于 有 两 个 BY 变量 ,分 别 为 Emp_ID 和 Month， 所 以 输出 报表 中 对 每 个 员工 每 月 的 Sales 和 Amount 都 做 了 汇总 。 如 果 只 需要 输出 每 个 员工 的 Sales 及 Amount 的 汇总 数据 ， 而 不 必 将 每 个 员 


工 每 个 月 的 汇总 数据 都 输出 ， 该 如 何 修改 上 面 的 程序 呢 ? 


这 时 可 以 使 用 SUMBY 语 句 控制 汇总 数据 的 输出 ， 使 用 语法 如 下 : 


BY 变量 1] 变量 2 ... 变量 n 变量 n+1 ... 变量 n+k; 
SUMBY 变量 n; 

















变量 n、...、 变 量 n+k 取 值 完 全 相同 的 观测 的 集合 。 


其 中 ，SUMBY 语 句 中 的 变量 hn 必须 出 现在 BY 语句 中 ，PRINT 过 程 将 对 每 个 BY 组 合 进行 汇总 ， 这 里 BY 组 合 指 的 是 使 得 变量 1、 
以 下 代码 只 实现 了 汇总 每 个 员工 整个 季度 的 Sales 和 Amount。 


量 2 到 变量 n 取 值 完全 相同 的 观测 的 集合 ， 而 不 是 使 得 变量 1、 变 量 2、.… 


proc Print data=work.sales cuarterl noobs; 
title '‘'Emp Sales for Total'; 
var sales amount; 
where substr (emp id,2,1)="T"; 
sum sales amount; 
by emp id month; 
id emp id month; 
sumby emp id; 
run; 加 




















以 上 介绍 了 PRINT 过 程 中 的 一 些 常用 语句 ， 这 里 总 结 如 下 : 


PROC PRINT DATA= 数 据 集 < 选项 >; 
ID 变量 1 < 变量 2 ..>; 
VAR 变量 1 < 变量 2 ..>; 
WHERE 表达 式 ， 
SUM 变量 1 < 变量 2 ..>; 
BY ”变量 1] < 变量 2 ..>; 
SUMBY 变量 1] < 变量 2 ...>; 








I 





























在 PRINT 过 程 中 ， 各 个 语句 的 顺序 可 以 任意 改变 。 


5.1.3 ”改进 报表 显示 
上 面 已 经 介绍 了 PRINT 过 程 的 基本 用 法 ， 下 面 将 进一步 介绍 如 何 使 用 其 他 的 语句 和 选项 使 输出 的 报表 更 加 具有 特色 。 主 要 包括 以 下 几 个 方面 : 


. 添加 标题 和 脚注 


< 


1. 添 加 标题 (TITLE) 和 脚注 (FOOTNOTE) 


在 SAS 所 有 的 输出 报表 中 ， 都 可 以 添加 标题 和 脚注 。 在 前 面 章 节 中 ， 已 经 使 用 TITLE 语 句 定义 了 输出 报表 的 标题 。 这 里 详细 讲解 TITLE 语 句 和 FOOTNOTE 语 句 及 其 使 用 语法 。 它 们 的 基本 语法 如 下 : 





TITLEn “标题 内 容 “; 
FOOTNOTEn “脚注 内 容 * ; 














其 中 : 

.0 的 取 值 可 以 为 1~10，TITLEn 代 表 从 上 往 下 数 第 n 级 标题 ，FOOTNOTEn 代 表 从 上 往 下 数 第 n 级 脚注 ， 标 题 内 容 和 脚注 内 容 必 须 用 单 引 号 或 双 引 号 括 起 来 。 

. 当 n 默 认 时 ， 表 示 默 认定 义 第 1 级 标题 或 脚注 。 当 hn>m 时 ，TILLEn 为 TITLEm 的 下 级 标题 ， 脚 注 同 理 。 

. 当 使 用 多 个 TITILE 语 名 时 ， 如 果 跳 过 某 一 级 或 某 几 级 TITLEn 没 有 指定 ， 则 报表 中 对 应 的 这 一 级 或 几 级 标题 显示 为 空 行 。 例 如 ， 指 定 了 TITLE1 和 TITLE3， 但 是 并 没有 指定 TITLE2 时 ， 输 出 报表 中 第 一 
级 标题 和 第 三 级 标题 中 间 会 有 一 行 空 行 。 


TITLE 语句 和 FEOOTNOTE 语 多 是 全 局 语句 ， 可 以 出 现在 PRINT 过 程 前 面 或 PRINT 过 程 的 程序 中 间 ， 标 题 和 脚注 一 经 指定 ， 在 以 后 输出 的 所 有 报表 中 都 将 被 使 用 ， 直 到 被 取消 。 
. TITLEn 语 名 的 作用 为 指定 新 的 标题 内 容 和 取消 下 级 标题 ，FOOTNOTEn 语 多 的 作用 为 指定 新 的 脚注 内 容 和 取消 下 级 脚注 。 
例 5.7: 输出 数据 集 ex.sales quarter1 的 Month=2 观 测 ， 在 报表 中 汇总 2 月 的 Sales 和 Amount， 并 为 报表 添加 标题 和 脚注 。 


示例 代码 如 下 : 


proc print data=ex.sales duarterl noobs; 
titlel 'Asia Pacific Acrea'; 

title3 'Monthly Sales Report'; 
footnotel ‘February Sales Total'; 
footnote2 'COMPANY CONFIDENTIAL'; 

var emp id emp name month sales amount; 
where month=2; 

sum sales amount; 
























































run; 


输出 内 容 如 图 5.9 所 示 。 


Asia Pacmhc Acrea 





Monthly Sales Report 


Emp ID Emp Name Month SAIES 





ET001 Jacob Adams 2| 32 4160 
Emily Anderson 2 33 | 1491.6 
Michael Amold 2 23 1035.0 
过 
2 





Hannan BAaker Ee 412.0 
425 | 15532.5 


157| 4807 1 


ETOO01 Jacob Adams 





February Sales Total 
COMAPANY CONPFIDENITIA 


图 5.9 例 5.7 打 印 输 出 内 容 
从 输出 结果 中 可 以 看 出 两 行 标题 中 间 有 一 空 行 ， 并 且 在 报表 下 方 输出 了 两 行 脚注 。 


取消 标题 或 脚注 的 语法 如 下 : 




















TITLEN; 
FOOTNOTEnN; 
其 中 : 

. “TITLEn; ”表示 取消 所 有 第 m 级 标题 ， 其 中 m>=n。“FOOTNOTEn; ”表示 取消 所 有 第 m 级 脚注 ， 其 中 m>=n。 
: “TITLE; ”表示 取消 所 有 标题 “FOOTNOTE; ”表示 取消 所 有 脚注 。 
2. 使 用 FORMAT 语 句 规定 输出 格式 
为 了 增加 报表 的 可 读 性 ， 可 以 在 PRINT 过 程 中 加 入 FORMAT 语 句 ， 这 可 使 变量 在 输出 时 采用 指定 的 输出 格式 。 其 语法 如 下 : 


FORMAT 变量 1 < 变量 2 变量 3 ...> 输出 格式 1 ”< 变量 4 < 变量 5 ...> 输出 格式 2 .> ，; 














其 中 ， 输 出 格式 可 以 是 SAs 系 统 提供 的 输出 格式 ， 也 可 以 是 用 户 自 定 义 的 输出 格式 。 需 要 注意 的 是 ， 在 PROC 步 中 使 用 FORMAT 语 句 并 不 会 影响 数据 集中 存储 的 数据 ， 该 输出 格式 仅 对 显示 在 报表 中 的 
变量 起 作用 。 


表 5.1 中 给 出 了 SAs 系 统 提供 的 常用 数值 型 变量 输出 格式 。 


表 5.1 SAS 系 统 中 常用 数值 型 变量 输出 格式 


输出 格式 


w 指定 字符 宽度 ， 


BESTw. 
法 显示 数值 
Ww 指定 最 大 宽度 ，d 指定 小 数 点 后 位 数 ， 
COMMAw.d eager ga 
每 3 位 数字 以 远 每 个 逗号 
w 指定 最 度 ， tay 
DOLLARw.d ”| 数 部 分 每 3 人 数字 出 号 -分隔 ， 
1 个 字符 
a w 指定 最 大 宽度 ，4 指定 小 数 点 后 位 数 ， 
pm 


每 个 逗 


分 每 3 位 数字 以 逗号 分 隔 ， 


稍 出 不 售 小 数 ， 





以 DOLLAR ($) 符 
个 逗号 、 点 号 及 DOLLAR ( 


， 以 欧元 ( 
点 号 及 欧元 〈@) 付 * 


人 
人 


、 


$) : 


例 
=] 257 000: 
format x best6.: 
结果 : 1.26E6 


引 | 


来 用 科学 计数 


以 点 号 分 开 小 数位 ， 整 数 部 分 
和 点 号 各 占 1 个 字符 


12 038.45 





6) 符号 开头 ， 整 效 部 
5 各 占 1 个 字符 





在 前 面 的 章节 讲 过 ， 日 期 型 变量 是 SAS 中 一 种 重要 数据 类 型 ， 在 SAS 内 部 ， 日 期 型 变量 是 以 数值 的 形式 进行 存储 的 ， 例 如 ，day=19068 对 应 的 日 期 为 2012 年 3 月 16 日 ; tm=32083 对 应 的 时 间 为 上 午 8: 
54: 43; event=1668138559 对 应 的 日 期 和 时 间 为 2012 年 11 月 10 日 上 午 3: 49: 19。 为 了 方便 辨识 ，SAS 提 供 了 多 种 日 期 型 变量 的 输出 格式 ， 表 5.2 给 出 了 一 些 常用 的 日 期 型 变量 输出 格式 。 


表 5.2 SAS 系 统 中 常用 日 期 型 变量 输出 格式 


格 式 | 指示 示例 
i W 为 宇和 付 宽 度 ， 取 值 为 5 ~ 11， 输 出 形式 分 别 为 ddmmmyy、| Format day date9.: 
W. . a 
ddmmmyyyy 或 dd-mmm-yyyy 结果 : 16MAR2012 
W 为 字符 宽度 ， 取 值 为 2 ~ 10， 输 出 形式 为 ddmm<yy>yy 或 | Format day ddmmyy6.: 
DDMMYY™w. 9 子 但 页 kg Ee jw Ee | > 入 
ddmm/<yy>yy， 其 中 笠 线 是 分 隅 符 ， 并 且 年 份 可 以 是 2 位 或 4 位 结果 : 160312 
i 宽度 . 值 为 2 ~ 10， 输 出 形式 为 mmdd<yv>yv 或 | Format day mmddvv8.: 
es J 字符 帘 取 值 为 2 hn 天 式 Syy>Yy i y yy 
mmy/dd/<yy>yy， 其 中 斜 线 是 分 隔 待 ， 并 且 年 份 可 以 是 2 位 或 4 位 结果 : 03/16/12 
w 为 字符 宽度 ， 取 值 为 2 ~ 10， 输 出 形式 为 四 或 
mm-dd-<yy> 和 X 表示 分 陋 月 、 年 的 特殊 字 | Format dav mmddyyp10.: 
MMDDYYxw |™ yy>yy， 其 中 林 Wt ] 表 7 Re J 特 丈 卫 上 y yyp 
付 ， 可 以 是 连 字 符 | )、 点 〈.)、 空 格 、 斜 线 (/)、 冒 号 (:)、 也 可 | 结果 : 03.16.2012 
以 没 -一 于 份 可 以 是 2 位 或 4 位 
又 值 为 2 ~ 10， 输 出 形式 为 <yy>yymmdd 或 Format da mimdd10.: 
YYMMDDw. nd ed, iy 。 ， ee 
Pil 其 中 连 字 号 - 是 分 隔 符 ， 并 且 年 份 可 以 是 2 位 或 4 位 | 结果 : 2012-03-16 
Format day yymon7 .: 
YYMONw. W 为 字 付 宽度 ， 输 出 形式 为 yymmm 或 mmm , 
ee Dom nh 结果 : 2012MAR 
i w 为 字符 宽度 ，d 为 秒 的 小 数 点 后 面 的 位 数 ， 显 示 表 示 时 分 秒 | Format tm time11.2: 
W. 
的 数值 ， 输 出 格 为 hh:mm:ss.ss 结果 :， 8:54:43.00 
Format event datetime21.2: 
W 为 字符 宽度 ，d 为 秒 的 小 数 点 后 面 的 位 数 ， 显 示 表 示 年 月 日 | ， 
DATETIMEw.d a 0 结果 : 


时 分 秒 ， 


输出 形式 为 ddmmmyy:hh:mm:ss.ss 


1ONOV2012:03:49:19.00 





SAS 系 统 提供 的 输出 格式 远 不 止 以 上 这 些 ， 更 多 信息 可 以 参考 SAS 帮 助 文档 。 


加 注意 ”在 使 用 日 期 型 输出 格式 时 ， 首 先 要 明确 数据 集中 存储 的 数值 代表 日 期 、 时 间或 者 日 期 时 间 中 的 哪 一 种 ， 然 后 再 选用 合适 的 输出 格式 将 其 显示 出 来 。 
例 5.8: 输出 数据 集 ex.sales quarter1 的 观测 ， 使 得 Amount 采 用 更 加 直观 的 输出 格式 。 


示例 代码 如 下 : 





proc print data=ex.sales quarterl noobs; 
title "Using Formating'; 
var emp id emp name month sales amount; 
where month=2; 


format amount dollarl14.2; 

















输出 内 容 如 图 5.10 所 示 。 


Using Forrmatng 


Emp ID Emp Name Month sales Camount 
ETOO1 Jacob Adams 2 32 | $416.00 
EDOOT Emily Anderson 33 | $1,491.60 


2 

ECOO Michael Amold 四 23 | $1.035.00 
2 
2 














EQOO01 | Hannah Baker 24 | «312 00 
ETUU1 Joshua Carter 45 | $1 552.50 


图 5.10 例 5.8 打 印 输出 内 容 


Amount 变 量 使 用 了 DOLLAR14.2 的 输出 格式 ， 其 中 14 代 表 可 以 输出 的 最 大 宽度 为 14 个 字符 ，2 代 表 小 数 点 后 预 留 了 两 位 ， 这 14 个 字符 中 包含 一 个 DOLLAR 符 号 、 一 个 小 数 点 ， 以 及 小 数 点 后 两 位 ， 整 数 
部 分 则 从 右 到 左 每 3 位 中 间 加 一 个 逗号 。 


@ 注 意 ”在 上 例 中 使 用 PORMAT 语 句 设置 数值 型 变量 的 输出 格式 时 ， 要 注意 使 输出 格式 中 指定 的 最 大 宽度 能 够 适用 在 该 变量 的 最 大 值 上 ， 其 中 DOLLOR 符 号 ($) 、 小 数 点 和 运 号 分 别 占 1 个 字符 。 
3. 使 用 LABEL 语 句 规定 输出 变量 的 标签 


默认 情况 下 ， 在 PRINT 过 程 的 输出 中 ， 系 统 会 使 用 数据 集中 的 变量 名 作为 报表 的 表 头 ， 有 时 为 了 使 得 报表 更 为 用 户 化 ， 可 以 使 用 变量 的 标签 来 代替 变量 名 。 变 量 的 标签 可 以 在 创建 数据 集 时 定义 。 如 果 
数据 集 的 变量 已 经 设 定 了 标签 ， 那么 只 要 在 PROC 步 中 加 上 选项 LABEL， 系 统 就 会 自动 采用 变量 的 标签 代替 变量 名 。 


如 果 数 据 集中 的 变量 没有 定义 标签 ,或 者 在 报表 中 需要 使 用 不 同 于 数据 集中 已 有 标签 的 形式 ， 则 可 以 在 PRINT 过 程 中 使 用 LABEL 语 句 ， 定 义 新 的 标签 。 这 时 再 使 用 选项 LABEL 就 可 以 在 报表 中 显示 新 定 
义 的 标签 了 。 


LABEL 语 句 的 使 用 语法 如 下 : 


LABLE 变量 1=' 标签 文本 ′ 变量 2=' 标签 27 ...; 

















标签 文本 必须 使 用 单 引号 或 双 引 号 括 起 来 ， 长 度 不 得 超过 256 个 字符 ， 包 括 空格 在 内 。 
例 5.9: 修改 例 5.8 的 程序 ， 为 Emp_ID、Emp_Name、Sales 和 Amount 定 义 标签 。 


示例 代码 如 下 : 


proc Print data=ex.sales quarterl label; 

title "Using Formating and Label'; 

var emp id emp name month sales amount; 

where month=2; 

format amount dollarl4.2; 

label emp igd=' 员 工 工 号 ' emp_name=' 员 工 姓名 ' Sales=' 销 售 数 ' Amount=' 销 售 金额 '; 




















输出 内 容 如 图 5.11 所 示 。 
(1) 分 行 显示 标签 
有 时 标签 可 能 过 长 ， 系 统 会 自动 根据 列 宽 将 标签 分 成 几 行 显示 ， 但 是 系统 分 隔 标签 时 不 会 考虑 具体 含义 ， 为 了 控制 标签 的 分 行 ， 可 以 使 用 选项 SPLIT= 。 使 用 选项 SPLIT= 时 ， 需 要 进行 以 下 两 个 操作 。 


. 在 PROC PRINT 语 句 中 使 用 选项 SPLIT= 指 明 分 隔 符 ， 使 用 选项 SPLIT= 的 基本 语法 如 下 : 


SPLIT=' 分 隔 符 ' 








. 在 LABEL 语 句 中 定义 含有 分 隔 符 的 标签 。 


分 隔 符 可 以 是 字母 、 数 字 或 特殊 符号 中 的 任何 一 种 ， 且 只 占 一 个 字符 ,同时 必须 使 用 单 引 号 或 双 引 号 括 起 来 。 在 使 用 选项 SPLIT= 时 ， 不 需要 使 用 选项 LABLE， 因 为 选项 SPLIT= 已 经 隐 合 了 PRINT 过 程 将 
使 用 标签 。 


(2) 在 报表 中 添加 空 行 


在 PROC PRINT 语 句 中 还 可 以 使 用 选项 BLANKLINE= 在 报表 中 添加 空 行 。 使 用 方法 如 下 : 





BLANKLINE=nN; 

















在 输出 报表 中 ， 每 输出 n 行 数据 后 输出 一 行 空 行 。 
例 5.10: 在 PROC PRINT 语 句 中 定义 斜 杠 〈/) 为 分 隔 符 ， 并 在 LABEL 语 句 中 将 分 隔 符 加 入 标签 定义 中 ， 同 时 使 得 报表 的 每 行 数据 后 有 一 个 空 行 。 


示例 代码 如 下 : 


proc Ee int data=ex.sales quarterl1 split="'/" A ine=1}; 
le 'Using Split and Aqdqi ing blank line 

var emp id emp name month sales amount; 

where month=2; 

format amount ne 23 

label emp id=' 员 工 / 工 号 ' emp_name=' 员 工 /姓名 Sales=' 销 售 数 ' Amount=' 销 售 /金额 ' 

















输出 内 容 如 图 5.12 所 示 。 


USing Formating and Label 





| ETOOT1 Jaccob Adars 


32 | $416.00 


号 | EDOO01 | Emily Andarson Anderson | 33 | $1,.491.60 










































































24 | $312.00 
45 | $1.552.50 | 


11 | EQOO1 i Eaker 


2 

“2 

2| 23 $1.035.00 

- | | 
12 | ET001 Jacob Adams 


10 | ECOOT1 Michael Amold MichaelAmold | 2 


图 5.11 例 5.9 打 印 输出 内 容 


Using Splhit and Adding blank line 


Obs | 员工 员工 Month 销售 数 销 告 
工 号 ”| 姓名 人 金额 


是 | ETIUU1 Jacob Adams 2 32 | $416.00 





9 | EDO01 Emily Anderson 2 33 | $1,491.60 


10 | ECO001 | Michael Armold 2 23 | $1.035.00 


11 | EQO01 Hannah 日 SKer 2 24 | $312.00 


12 ,ETO001 Jacob Adams 2 中 | $1,552.30 


图 5.12 例 5.10 打 印 输 出 内 容 


本 节 介 绍 了 PRINT 过 程 的 常用 方法 和 选项 ，SAS 提 供 了 丰富 的 选项 供用 户 制作 更 加 个 性 化 的 报表 ， 读 者 可 以 查阅 SAS 帮 助 文档 , 


5.2 ”通过 TABULATE 过 程 制作 汇总 报表 


在 上 一 节 中 介绍 了 使 用 PRINT 过 程 制 作 详 细 的 报表 ， 本 节 将 介绍 如 何 使 用 TABULATE 过 程 制作 各 种 格式 的 汇总 报表 ， 在 这 些 报 表 中 将 不 再 显示 各 条 观测 的 内 容 ， 而 是 分 类 汇总 的 结果 。 对 于 观测 数 庞 大 
的 数据 集 ， 通 过 汇总 报表 可 以 更 集中 地 反映 数据 的 概要 特征 。 


5.2.1 制作 基本 汇总 报表 


TABULATE 过 程 不 同 于 PRINT 过 程 ， 在 不 使 用 其 他 语句 的 情况 下 ，PRINT 过 程 会 输出 数据 集 的 详细 内 容 作为 报表 ， 但 是 使 用 TABULATE 过 程 必须 编写 程序 进行 报表 布局 。 


TABULATE 过 程 的 基本 语法 如 下 : 


PROC TABULATE DATA= 数 据 集 < 选项 >; 

CLASS 变量 1 < 变量 2 ”变量 3 ..>; 

VAR ”变量 4 ”< 变量 5 变量 6 ...>; 

TABLE ”<< 页 表达 式 , > 行 表 达 式 ,> 列表 达 式 </ 选 项 >; 
RUN; 



































其 中 : 


: CLASS 语 旬 中 的 变量 称 为 分 类 变量 ， 依 据 分 类 变量 的 不 同 取 值 可 以 将 数据 集中 的 观测 划分 为 不 同 的 分 组 类 别 。 针 对 这 些 分 组 类 别 ，PROC TABULATE 分 别 计算 分 析 变 量 (后 面 会 讲 到 ) 的 统计 量 。 数 
值 型 和 字符 型 的 变量 都 可 以 作为 分 类 变量 ,但 通常 类 别 (分 类 变量 的 取 值 个 数 ) 不 宜 太 多 。 


. VAR 语 名 中 的 变量 称 为 分 析 变 量 ， 这 些 变 量 的 值 就 是 进行 分 析 计 算 的 对 象 。 只 有 数值 型 变量 才 可 以 作为 分 析 变 量 。 为 了 使 汇总 报表 有 意义 ， 通 常 要 求 分 析 变 量 的 求 和 或 平均 等 计算 是 有 实际 含义 的 。 


.TABLE 语句 是 用 来 定义 表格 布局 的 ， 通 过 TABLE 语 多 可 以 定义 汇总 表格 的 列 、 行 和 页 3 个 维度 的 布局 。 在 一 个 TABLE 语 名 中 列表 达 式 是 必须 的 ， 其 余 表 达 式 可 以 省 略 ， 但 是 顺序 必须 依次 是 页 表达 
式 、 行 表达 式 、 列 表达 式 ， 各 表达 式 中 间 用 运 号 (，) 分 隔 。 每 个 维度 的 表达 式 由 操作 符 和 元 素 组 成 。 操 作 符 包括 空格 操作 符 和 星 号 (*#) 操作 符 ， 元 素 包 括 分 析 变 量 、 分 类 变量 、 通 用 的 分 类 变量 ALL、 统 
计量 、 输 出 格式 和 标签 等 


下 面 将 具体 介绍 如 何 使 用 操作 符 和 元 素 。 


以 下 程序 是 使 用 TABLE 语 句 的 简单 示例 ， 在 定义 一 个 三 维 的 汇总 表格 后 ， 系 统 将 根据 Dept 的 取 值 把 汇总 表格 分 页 ， 以 Emp_Name 的 取 值 作为 行 ， 以 Amount 的 取 值 作为 列 。 代 码 如 下 : 





table Dept, Emp Name, Amount; 


一 个 TABULATE 过 程 中 可 以 有 多 个 CLASS 语句 、VAR 语 句 和 TABLE 语 句 。 


加 注意 1) 在 TABULATE 过 程 中 ， 任 何 一 个 变量 都 只 能 是 分 类 变量 或 分 析 变 量 ， 但 不 可 以 既 作 为 分 类 变 


hd 
» 
访 
NG 
> 
区 
信 
hd 


2) TABLE 语 名 中 出 现 的 任何 变量 都 必须 在 CLASS 语句 或 者 VAR 语 名 中 出 现 过 。 
3) 所 有 分 析 变 量 必须 出 现在 一 个 维度 〈 列 、 行 或 者 页 ) 中 ， 也 就 是 说 ， 仅 有 一 个 维度 的 表达 式 中 包含 分 析 变量 。 


在 使 用 TABULATE 过 程 制作 报表 前 ， 必 须根 据 所 要 显示 的 内 容 明 确 以 下 4 个 问题 : 


二 


么 变量 作为 分 类 变量 。 

. 什么 变量 作为 分 析 变量 。 

. 需要 计算 什么 统计 量 。 

- 用 什么 样 的 表格 展示 结果 。 

接 下 来 将 按照 以 上 的 思路 结合 例子 来 介绍 如 何 使 用 TABULATE 过 程 制作 报表 。 


在 本 节 中 将 使 用 数据 集 ex.sales_halfyear 作 为 示例 数据 ， 该 数据 集中 含有 以 下 字段 : 员工 工 号 (Emp_ID) 、 员 工 姓名 (Emp_Name) 、 州 (State) 、 销 售 月 份 (Month) 、 销 售 数量 (Sales) 、 销 
售 价格 (Price) 、 产 品类 型 (Type) 、Amount (销售 金额 ) 。 部 分 数据 如 图 5.13 所 示 。 


Ee VIFETTABLE: Fr.Sales halfrear 
Emp_Ib Emp_Name State Mamth PRrice Type 
ETUO01T Jacob Adams 245 Simple 
EDOO Emly Anderson 34.5 Customerize 


ELUUT MichaelArnold 13.99) Lustomerze 
EQ001 Hannah Baker 13 Customerize 
ETOO Joshua Larter 49.2 Customerze 
ETON MatbDale 49 Lustomerze 
ETONM Andrew Clark 15.6 Customerze 





图 5.13 ”数据 集 ex.sales_hafyear 部 分 内 容 
例 5.11: 使 用 TABULATE 过 程 制作 一 个 简单 表格 ， 显 示 每 个 州 的 交易 次 数 。 
分 析 : 这 里 的 分 类 变量 为 State， 交 易 次 数 是 频数 统计 量 ， 那 么 分 类 变量 的 默认 统计 量 就 是 频数 统计 量 。 


以 下 代码 可 以 实现 上 述 功能 : 








proc tabulate data=ex.sales halfyear; 
titlel 'Sales in North America'; 
title2 'Trancations in Each State'; 
class state; 

table state; 









































run; 


输出 内 容 如 图 5.14 所 示 。 
在 这 段 程 序 中 ， 使 用 了 CLASS 语句 和 TABLE 语 句 ， 没 有 使 用 VAR 语 句 。 

. CLASS 语句 中 定义 了 一 个 分 类 变量 state， 当 TABLE 语 多 使 用 变量 state 时 ，state 的 每 个 取 值 将 成 为 一 个 分 组 类 别 。 

. 如 果 TABIE 语 名 中 只 指定 了 一 个 表达 式 state， 则 这 个 表达 式 作为 列表 达 式 ，state 的 每 个 取 值 将 在 表格 中 作为 一 列 。 
当 没 有 定义 分 析 变量 时 ， 在 表格 中 显示 的 统计 量 默认 为 频数 统计 量 N。 


.TITIB 语 句 是 全 局 语句 ， 这 里 定义 两 级 标题 ， 可 以 参考 PRINT 过 程 中 的 介绍 。 


1. 分 类 变量 中 含有 缺失 值 


如 果 分 类 变量 中 含有 缺失 值 ， 在 汇总 时 系统 会 自动 删除 分 组 变量 为 缺失 值 的 观测 。 在 PROC TABULATE 中 使 用 选项 MISSING， 可 以 将 缺失 值 作为 一 个 特定 的 类 别 在 报表 中 显示 出 来 。 使 用 方法 如 下 : 





PROC TABULATE DATA= 数 据 集 MISSING; 











当选 项 MISSING 使 用 在 PROC TABULATE 语 句 中 时 ， 会 对 所 有 CLASS 语句 中 的 分 类 变量 都 起 作用 。 第 一 次 对 某 个 数据 集 使 用 TABULATE 过 程 时 ， 最 好 能 先 在 PROC TABULATE 语 句 中 使 用 选项 
MISSING， 这 样 能 对 数据 集中 的 各 变量 是 否 存 在 缺失 值 有 比较 全 面 的 了 解 。 


在 制作 报表 过 程 中 ， 如 果 只 需要 将 特定 变量 的 缺失 值 在 报表 中 显示 ， 可 以 在 CLASS 语 句 中 使 用 选项 MISSING。 语 法 如 下 : 








CLASS 变量 1 < 变量 2 ... > / MISSING; 

















这 时 选项 MISSING 只 对 该 CLASS 语 句 中 的 变量 起 作用 ， 如 果 TABULATE 过 程 中 还 有 其 他 CLASS 语 句 ， 选 项 MISSING 对 其 他 变量 不 起 作用 。 


修改 例 5.11 的 代码 如 下 : 








proc tabulate data=ex.sales halfyear; 
titlel 'Sales in North America'; 























title2 'Trancations in Each State'; 
class state/missing; 
table state; 























run; 





输出 如 图 5.15 所 示 。 


Sales in North Amenca 
Trancations In Each State 


state 的 取 仁 作为 列 


统计 量 为 分 类 量 的 
默认 统计 量 








图 5.14 例 5.11 打 印 输出 内 容 


Sales In North Amenca 
Trancations In Each St 




















图 5.15 State 含 有 缺失 值 的 输出 


例 5.12: 使 用 TABULATE 过 程 制作 一 个 简单 表格 ， 显 示 每 个 州 的 交易 金额 。 


分 析 : 这 里 的 分 类 变量 是 state， 分 析 变 量 是 Amount， 使 用 求 和 统计 量 ， 在 设计 表格 的 时 候 ， 可 以 将 state 的 取 值 设 为 行 ， 交 易 金 额 的 和 设 为 列 ， 这 样 就 不 难 写 出 代码 了 。 代 码 如 下 : 





proc tabulate data=ex.sales halfyear; 
titlel 'Sales in North America'; 
title2 'Total Amount Sold in Each State'; 
class state; 
var amount; 
table state,amount; 


























输出 内 容 如 图 5.16 所 示 。 


Sales in North America 
Total Amount Sold Im Each State 





amount 尾 


SUmM = 
srare 统计 量 为 分 析 变 量 的 的 内 


统计 量 SUM 


CA 2115.95 








3516.60 
2945.00 
2008.00 
MD 4648.20 
NC 2498.40 


NY 4442.75 


图 5.16 例 5.12 打 印 输 出 内 容 
在 TABLE 语 句 中 ， 分 类 变量 State 定 义 为 行 维度 ，State 的 每 个 取信 在 报表 中 为 一 行 ; 分 析 变量 amount 定 义 为 列 维度 ， 这 里 没有 为 amount 指 定 特定 的 统计 量 ， 系 统 使 用 默认 的 SUM 统 计量 ， 
例 5.13: 使 用 TABULATE 过 程 制作 一 个 简单 表格 ， 显 示 每 种 产品 在 每 个 州 的 交易 金额 ， 并 将 不 同 的 产品 分 页 展示 。 


分 析 : 这 里 的 分 类 变量 有 两 个 ， 分 别 是 state 和 Type， 分 析 变 量 是 Amount， 使 用 求 和 统计 量 ， 这 里 需要 使 用 Type 来 分 页 ， 将 State 取 值 设 为 行 ， 交 易 金额 的 和 设 为 列 。 示 例 代 码 如 下 : 








proc tabulate data=ex.sales halfyear; 

titlel 'Sales in North America'; 

title2 'Total Amount Sold in Each State for Each Type'; 
class state type; 


















































table type,state,amount; 


输出 如 图 5.17 所 示 。 


Sales in North Amenca 
Total Amount Sold in Each State for Each Type 


Type Customenze 























Sales In North Amernca 
Total Amount Sold in Each State for Each Type 


Type Simpole 
































图 5.17 例 5.13 打 印 输出 内 容 


以 上 汇总 表格 中 每 种 产品 分 属 不 同 的 页 ， 每 页 中 显示 每 个 州 的 交易 金额 总 和 ， 列 的 名 称 包 含 了 分 析 变 量 Amount 和 统计 量 SUM。 


5.2.2 ”制作 高 级 汇总 报表 


在 上 面 的 介绍 中 ，TABLE 语 句 的 每 个 维度 都 只 有 一 个 分 类 变量 或 分 析 变 量 。 事 实 上 ， 人 在 TABLE 语 句 中 可 以 使 用 更 为 复杂 的 维度 表达 式 来 制作 汇总 报表 。 


1. 使 用 空格 操作 符 制 作 连 排 表格 


在 TABLE 语 句 的 表达 式 中 ， 使 用 空格 操作 符 隔 开 两 个 元 素 可 以 制作 连 排 表格 。 


例 5.14: 使 用 TABULATE 过 程 制作 一 个 汇总 表格 ， 显 示 每 个 州 的 交易 数量 及 每 个 月 的 交易 数量 。 


分 析 : 这 里 的 分 类 变量 为 state 和 Month， 使 用 频数 统计 量 ， 可 以 考虑 制作 连 排 表 格 。 示 例 代 码 如 下 : 








proc tabulate data=ex.sales halfyear; 
titlel 'Sales in North America'; 
title2 'Total Transactions'; 
class state month; 

table state month; 






































在 上 述 代 码 中 ，TABLE 语 句 中 有 两 个 变量 : state 和 month， 用 空格 隔 开 ， 共 同 组 成 了 列表 达 式 。 


输出 内 容 如 图 5.18 所 示 。 


sales In North Amenca 
Total Transactions 





LAIFL II MAI MD NCNY IT 23 4 5 6 
N N NI N N N NN N NN NN N 
了 | 过 | 4 4 号 4 是， | 二 | 本 | 车 | 寺 | 7 


图 5.18 例 5.14 打 印 输出 内 容 
在 输出 结果 中 ，state 和 month 的 取 值 共同 构成 了 汇总 表格 的 列 。 
2. 使 用 星 号 (*) 操作 符 制 作 交 叉 组 合 表格 
在 TABLE 语 句 中 ， 可 使 用 星 号 (*) 操作 符 隔 开 两 个 元 素 制作 交叉 组 合 表格 。 
例 5.15: 使 用 TABULATE 过 程 制作 一 个 汇总 表格 ， 显 示 每 种 产品 在 每 个 州 的 销售 金额 总 和 |。 


分 析 : 分 类 变量 为 State 和 Type， 分 析 变 量 为 Amount， 使 用 求 和 统计 量 。 示 例 代码 如 下 : 








proc tabulate data=ex.sales halfyear; 
titlel 'Sales in North America'; 




















title2 'Total Amount Sold For Each Type In Each State'; 
class state type; 

var amount; 

table type*state,amount; 
































表达 式 type*state 表 示 行 维度 ，type 在 星 号 (*) 操作 符 的 左边 ， 因 此 在 汇总 表格 中 type 位 于 state 的 左边 。 


输出 内 容 如 图 5.19 所 示 。 


Sales In North Amenca 
Total Amount Sold For Each Type In Each State 








208.345 
| 3516.60 
1344700 
1696.00 


3155.b6U 





310.50 


行 表 达 式 Type*State， 构 


3116.25 


一 一 一 一 








成 交叉 表格 \ 


1907.60 





1598.00 
312.00 
1491.60 

NC : 2087.90 

NY : 726.50 


图 5.19 ” 例 5.15 打 印 输出 内 容 


3. 使 用 关键 字 ALL 
关键 字 ALL 可 以 使 用 在 TABLE 语 句 的 页 、 行 、 列 表达 式 中 ， 它 可 以 作用 在 一 个 或 者 多 个 分 类 变量 上 。ALL 可 以 理解 为 一 个 特殊 的 分 组 类 别 ， 这 个 类 别 中 包含 所 作用 变量 的 所 有 分 组 类 别 内 的 全 部 观测 。 
例 5.16: 使 用 关键 字 ALL 修 改 例 5.15 中 的 程序 ， 显 示 每 种 产品 在 每 个 州 的 销售 总 和 及 所 有 产品 在 所 有 州 的 销售 总 和 |。 


示例 代码 如 下 : 








proc tabulate data=ex.sales halfyear; 
title 'Type*State All'; 
class state type; 
var amount; 
table type*state all,amount; 


























run; 
proc tabulate data=ex.sales halfyear; 
class state type; 
var amount; 
title 'Type* (State All)'; 
table type* (State all),amount; 
run; 


























输出 内 容 如 图 5.20 所 示 。 


Type*State Al Types(State All) 


08.33 
3516.60 
1347.00 


CA 

FL 

IL 

MA 1696.00 
MD 3156.60 
NC 310.30 
NY 3716.25 
CA 1907.60 


iL 13598.00 











MD 1491.60 
2087.90 

26.50 
全 部 22074.90 





图 5.20 例 5.16 打 印 输出 内 容 
为 了 介绍 关键 字 ALL， 这 里 分 别 制作 了 两 个 汇总 表格 。 


. 左边 的 表格 : 关键 字 ALL 作 用 在 type*state 之 后 ，ALL 相 当 于 和 type*state 一 样 的 一 个 类 别 ， 最 后 一 行 的 类 别 显 示 为 ALL (全 部 ) ， 表 示 计 算 所 有 产品 在 所 有 州 的 销售 总 和 。 


aiOuntt 


SUMm 


08.35 
3516.60 
1347 .U0 
1696.00 
3156,60 

310.20 
了/ ,< 


13951.,30 


1907.60 
1238.00 
312.00 
1431.50 
2087.90 
?726.50 


. 右边 的 表格 : 关键 字 ALL 只 作用 在 state 上， 相当 于 是 state 的 一 个 特殊 类 别 ， 所 以 在 每 个 State 的 所 有 类 别 之 后 ， 都 有 一 行 显示 为 ALL (全 部 ) ， 用 于 计算 菜 种 产品 在 所 有 州 的 销售 总 和 。 


4. 统 计量 


在 上 面 的 例子 中 ， 使 用 的 都 是 系统 默认 的 统计 量 ， 其 中 分 类 变量 的 默认 统计 量 是 频数 统计 量 N， 分 析 变 量 的 默认 统计 量 是 求 和 统计 量 SUM。 除 了 频数 统计 量 和 求 和 统计 量 ，TABULATE 中 还 可 以 计算 许 


多 其 他 统计 量 。 表 5.3 中 是 部 分 较为 常见 的 统计 量 的 关键 字 。 


表 5.3 常见 统计 量 关键 字 


统计 量 作 用 


N 频数 统计 量 ， 非 缺失 值 个 数 

NMISS 缺失 值 个 数 

MEAN 平均 值 

MIN 最 小 值 

MAX 最 大 值 

SUM 求 和 

VAR 万 老 

PCTN 观测 数 在 所 有 观测 中 所 占 的 百 分 妆 

COLPCTN 观测 数 在 本 列 所 有 观测 中 所 占 的 百分比 

ROWPCTN 观测 数 在 本 行 所 有 观测 中 所 占 的 百分比 
(组 ) 


统计 量 作 用 


PCTSUM 观测 值 总 和 在 所 有 观测 值 总 和 中 所 占 的 百分比 
COLPCTSUM 观测 值 总 和 在 本 列 所 有 观测 值 总 和 中 所 占 的 百分比 
ROWPCTSUM 观测 值 总 和 在 本 行 上 所 有 观测 值 总 和 中 所 占 的 百分比 


@ 注 意 ” 前面 介绍 过 ， 在 一 个 TABLE 语 句 中 ， 所 有 分 析 变 量 必须 出 现在 一 个 维度 中 ， 也 就 是 说 ， 只 有 在 一 个 维度 的 表达 式 中 才 会 包含 分 析 变量 。 同 样 的 ， 所 有 的 统计 量 也 必须 出 现在 一 个 维度 中 ， 但 是 
析 变 量 和 统计 量 可 以 分 别 出 现在 不 同 的 维度 中 。 


例 5.17: 使 用 TABULATE 过 程 制作 一 个 汇总 表格 ， 显 示 每 种 产品 在 每 个 州 的 交易 次 数 、 平 均 销 售 金额 、 销 售 金额 总 和 。 


分 析 : 分 类 变量 为 Type 和 state， 分 析 变 量 为 Amount， 统 计量 为 频数 (N) 、 平 均值 (MEAN) 和 求 和 统计 量 (SUM) 。 示 例 代码 如 下 : 








proc tabulate data=ex.sales halfyear; 
titlel 'Sales Report in North America'; 
class state type; 

var Amount; 
table type*state all,amount*n amount*mean amount; 



































输出 内 容 如 图 5.21 所 示 。 


Sales Report mn North Amenca 








hate 
CA 1 208.35 
HL 了 | 1172.20 
WL | 673.30 
MA 了 | S65.33 
MD 3 | 10532.20 
NC 1 310.50 
NY S| 619.38 
Sunple CA 之 | 953.80 
员 _ 二 | 了 7 了 99.00 
MA 1 312.00 
MD 1 | 1491.60 
NC 3 | 695.97 
NY | 3634 5 


全 部 30| 735 .83 








208.35 


3316.60 
1347.00 
1696.00 
3156.60 

310.50 
3716.25 
1907.60 
1598.00 

312.00 
1#491.60 
2087.90 


726.50 


22074.90 


图 5.21 例 5.17 打 印 输出 内 容 


这 里 使 用 了 多 个 统计 量 N、MEAN 和 SUM。 表 达 式 amount*n amount*mean amount 可 以 使 用 括号 操作 符 写 成 amount* (n mean sum) 。 


5.2.3 ”改进 报表 显示 


上 面 已 经 介绍 了 TABULATE 过 程 的 用 法 ， 下 面 将 进一步 介绍 如 何 使 用 其 他 的 语句 、 选 项 及 关键 字 ， 使 得 输出 的 报表 更 为 用 户 化 ， 且 具有 可 读 性 。 主 要 包括 以 下 几 个 方面 : 


. 添加 标题 和 脚注 


` 规定 变量 或 统计 量 标签 


“ 控制 分 类 变量 输出 类 别 


` 控制 汇总 数据 的 输出 格式 


在 TABULATE 过 程 中 ， 标 题 和 标注 的 使 用 方法 和 在 PRINT 过 程 中 类 似 ， 这 里 不 袭 述 。 


1. 规 定 变量 或 统计 量 标签 


在 使 用 TABULATE 过 程 制作 汇总 表格 时 ， 若 数据 集中 已 经 为 变量 设立 了 标签 ， 则 在 汇总 表格 中 ， 行 或 列 的 表 头 中 将 显示 其 标签 而 非 变量 名 。 如 果 数 据 集中 的 变量 没有 定义 标签 ， 


同 于 数据 集中 已 有 标签 的 形式 ， 则 可 以 使 用 以 下 两 种 方法 定义 变量 的 标签 。 
` 使 用 LABEL 语 句 定义 标签 ， 使 用 语法 和 PRINT 过 程 中 类 似 。 


“ 在 TABLE 语 名 中 使 用 以 下 语法 改写 变量 名 : 


或 者 在 报表 中 需 使 用 不 





变量 =, 标签， 





其 中 变量 包括 通用 分 类 变量 ALL。 如 果 不 需要 某 个 变量 的 名 称 出 现在 汇总 表格 中 ， 则 可 以 将 这 里 的 ' 标 签 ' 置 为 "。 
例 5.18: 将 汇总 表格 中 的 变量 都 使 用 中 文 标签 显示 。 


示例 代码 如 下 : 








proc tabulate data=ex.sales halfyear; 
titlel "Sales Report in North America'; 
class state type; 





























t; 
table type=' 产 品类 型 '*state all=' 汇 总 ', amount=''*(n mean sum) ， 

















输出 内 容 如 图 5.22 所 示 。 


Sales Report in North Amenca 


分 别 使 用 两 种 方式 定义 





『 Type 和 State 的 标 人 党 | 


1 | 208.35 
1172.20 
673.50 


S565.33 


lb | RJ ly 


州 

CA 

FL 

LL 

MLA, 

MD 1052.20 
NE | 1| 310.50 
NY | 6| 61938 

Simple CA | 2| 953.80 

员 2 | 7939.00 

MA | 1 312.00 

MD 1 | 1491.60 

NGC | 3 695.97 

NY 


电 363.23 


将 ALL 的 标签 设 定 为 


I 人 | 汇总 30 | 735.83 
TL 局 





图 5.22 例 5.18 打 印 输 出 内 容 


若 要 对 汇总 表格 中 的 统计 量 名 称 进行 更 改 ， 类 似 于 变量 标签 的 设 定 ， 可 以 使 用 以 下 两 种 方法 中 的 任意 一 种 实现 。 


` 使 用 KEYLABEL 语 句 定义 标签 ， 相 关 语 法 如 下 : 












































. 在 TABLE 语 名 中 使 用 以 下 语法 改写 变量 名 : 


统计 量 关 键 字 -' 统 计量 标签 








例 5.19: 接着 例 5.18， 将 汇总 表格 中 的 统计 量 改 为 中 文 名 称 。 


示例 代码 如 下 : 








proc tabulate data=ex.sales halfyear; 

















titlel ' 北 美 销售 概况 ' ; 

title2 ' 产 品类 型 和 季度 角度 分 析 ' ; 

class state type; 

Var amount; 

table type=' 产 品类 型 '*state all=' 汇 总 ', amount=''* (n=' 销 售 次 数 ' mean=' 平 均 销售 
金额 ' sum= ' 销 售 金额 之 和 ' ) ， 

label state="' 州 '; 
























































208.35 
3516.60 
1347.00 
1696.00 
3156.60 

310.50 
3716.25 
1907.60 
15938.00 

312.00 
1491.60 
2087.90 


eB.20 


2U14.30 


由 于 定义 了 amount 的 标 
竺 为 '', 所 以 在 报表 中 不 





显示 amount 弯 量 


KEYLABEL 统计 量 关键 字 1=' 统 计量 标签 1' 统计 量 关 键 字 2=' 统 计量 标签 2'; 





前 出 内 容 如 图 5.23 所 示 。 


北美 销售 概况 
产品 类 型 和 季度 角 度 分 析 

























































































| | 
| | 





ng 
三 
Un 


ww Nw 
3 
名 


= 
La 
di 
a 
La 
— 
(a 
妆 


3 , 
S 
2 


| 
pe | 
日 
1 


726.50 


"or 
3 
加 


汪 
- 


a2 4 


图 5.23” 例 5.19 打 印 输 出 内 容 
在 上 述 程序 中 ， 实 现 了 将 统计 量 N、MEAN 及 SUM 分 别 用 中 文 标签 显示 。 
2. 使 用 FORMAT 语 名 控制 分 类 变量 的 类 别 
在 TABULATE 过 程 中 ， 可 以 使 用 FORMAT 语 句 控制 分 类 变量 的 类 别 。 使 用 语法 如 下 : 


FORMAT 变量 1 < 变量 2 .> 输出 格式 1 < 变量 3 输出 格式 2...>; 





对 分 类 变量 使 用 ORMAT 语 句 后 ， 将 按 格 式 化 后 的 值 进行 分 类 ， 同 时 ， 在 汇总 表格 中 显示 的 类 别 也 是 变量 格式 化 后 的 取 值 。 


例 5.20: 显示 使 用 TABULATE 过 程 制作 一 个 汇总 表格 ， 显 示 每 种 产品 每 个 季度 的 销售 次 数 、 平 均 销 售 金额 、 销 售 金 额 总 和 |。 


在 数据 集 ex.sales_halfyear 中 没有 季度 字段 ， 可 以 对 变量 month 使 用 用 户 自 定义 格式 $quarter。 


示例 代码 如 下 : 








proc format 
Value quarter 











1-3=' 季 度 1， 
4-6=' 季度 21' 
7-9=' 季度 31 
10-12=' 季 度 4'，; 
run; 
proc tabulate data=ex.sales halfyear; 
1 十 ] a1 当 佳 yi vs 











ELEe 部 

title2 ' 产 品类 型 和 季度 角度 分 析 ' ; 

class type month ， 

var amount; 

table type=' 产 品类 型 '* (month all=' 半 年 汇总 ') all=' 汇 总 ' ,amount=''* (n mean= 
' 平 均 销售 金额 ，sum=' 销 售 金额 之 和 ')，; 

format month quarter.; 

keylabel n=' 销 售 次 数 '，; 


























run; 


前 出 内 容 如 图 5.24 所 示 。 


北美 销售 概况 
产品 类 型 和 季度 角度 分 析 
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EF O00 cebii .4 


图 5.24 例 5.20 打 印 输 出 内 容 


这 里 运用 FORMAT 过 程 定义 了 输出 格式 quarter， 将 month=1、2、3 归 为 季度 1，month=4、5、6 归 为 季度 2， 所 以 在 输出 报表 中 ， 我 们 看 到 month 的 取 值 变 成 季度 1 和 季度 2 (数据 集中 只 有 上 半年 的 
数据 ) ， 并 和 且 分 类 汇总 也 是 在 此 基础 上 进行 的 。 


接 下 来 ， 将 对 FORMAT 过 程 进行 简要 介绍 。 


SAS 系 统 提供 的 [FORMAT 过 程 专门 供用 户 自 定义 输入 与 输出 格式 。 通 过 FORMAT 过 程 ， 用 户 可 以 自己 设 定 输 出 格式 ， 对 变量 的 不 同 值 或 者 不 同 范围 的 值 可 设 定 不 同 的 “标签 ”来 显示 ， 从 而 增加 数据 集 
和 报表 的 可 读 性 。 涉 及 的 语法 如 下 : 


PROC FORMAT; 
VALUE 格式 名 称 范围 1=' 标 签 1" 








范围 2=' 标 签 2' 


RUN; 





其 中 ， 格 式 名 称 是 长 度 不 超过 8 位 的 SAS 变 量 名 ,但 是 不 能 以 数字 结尾 ， 也 不 能 和 系统 已 有 的 输出 格式 重 名 。 若 为 字符 型 的 输出 格式 ， 格 式 名 称 必须 以 DOLLAR 符 号 ($) 开始 ， 包 括 DOLLAR 符 号 在 内 
不 能 超过 8 个 字符 。 


以 下 程序 定义 了 两 个 输出 格式 。 








proc format 
Value S$gender 
"MI'='Majle' 
'F'='Female' 
Other='Wrong Code'; 
run; 
proc format; 
Value S$grade 
Low-59='Under Grade' 
60-80='Average' 
81-90='Good' 
91-High="'Excellent"';} 














run; 


在 上 述 程序 中 ，OTHER 表 示 除 了 列举 范围 以 外 的 所 有 值 ， 包 含 缺 失 值 ， 一 般 使 用 在 字符 型 输出 格式 中 ; LOW 表 示 最 小 的 数值 ， 包 含 缺失 值 ; HIGH 表 示 最 大 的 数值 。 
用 户 自 定义 的 输出 格式 和 系统 自 带 的 输出 格式 使 用 方法 一 样 。 


如 果 没 有 指定 逻辑 库 ， 则 FORMAT 过 程 定 义 的 输出 格式 保存 在 WORK 逻 辑 库 中 FORMATS 目 录 下 ， 如 图 5.25 所 示 。 一 经 定义 后 ， 即 可 一 直 调 用 ， 但 是 由 于 是 保存 在 I 临 时 库 中 的 ， 因 此 一 旦 关闭 SAS 会 
话 ， 它 就 会 被 删除 。 


SAS 资源 管理 孙 SAS 次 效 官 理 赤 





”Work.Formats 的 内 容 
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图 5.25 WORK 人 逻辑 库 中 FORMATS 目 录 


为 了 使 得 定义 的 FORMAT 能 够 保存 下 来 ， 可 在 以 后 的 SASs 会 话 中 被 调用 ， 可 以 在 定义 FORMAT 的 时 候 如 下 指定 逻辑 库 : 





PROC FORMAT LIBRRARY= 逻 辑 库 名 ， 

















这 样 一 来 ， 定 义 好 的 FORMAT 就 会 被 保存 到 该 逻辑 库 中 的 FORMATS 目 录 下 。 选 项 LIBRARY= 缺 省 时 ，FORMAT 会 被 默认 保存 到 WORK 逻 辑 库 中 的 FORMATS 目 录 下 。 


为 了 方便 用 户 在 以 后 的 SAs 会 话 中 直接 调用 已 经 定义 的 FORMAT，SAS 提 供 了 一 个 系统 选项 FMTSEARCH， 用 于 搜索 指定 的 逻辑 库 及 目录 下 面 的 FORMAT。 选 项 FMTSEARCH 的 使 用 方法 如 下 : 








OPTIONS FMTSEARCH= (逻辑 库 名 1 < 逻辑 库 名 2 . >) ; 




















例如 : 











Options fmtseatch=(abc xyz); 


在 上 面 的 例子 中 ， 系 统 会 首先 搜索 WORK.FORMATS， 然 后 再 依次 搜索 ABC.FORMATS 和 XYZ.FORMATS， 直 到 找到 需要 的 FORMAT。 如 果 用 户 希 望 系统 优先 使 用 ABC 逻辑 库 中 的 FORMAT， 可 以 在 
OPTIONS 语 句 中 如 下 设置 : 








options fmtseach=(abc work XYZ) ， 








如 此 一 来 ， 系 统 就 会 依次 搜索 ABC.FORMATS、WORK.FORMATS、XYZ.FORMATS， 直 到 找到 需要 的 FORMAT。 
关于 FORMAT 过 程 更 加 详细 的 介绍 及 用 法 请 参考 SAs 帮 助 文档 。 

3. 控 制 汇总 数据 的 输出 格式 
在 TABULATE 过 程 中 ， 有 以 下 两 种 方法 可 以 控制 汇总 数据 的 输出 格式 : 


` 在 TABLE 语 句 的 变量 (或 变量 标签 ) 或 统计 量 〈 或 统计 量 标签 ) 后 面 可 使 用 下 面 语 法 控制 行 或 列 的 输出 格式 。 





*F= 输 出 格式 


“ 在 PROC TABULATE 语 名 中 使 用 选项 FORMAT= ， 这 时 指定 的 格式 将 作为 所 有 汇总 数据 的 输出 格式 ， 除 非 菜 些 行 或 某 些 列 指定 了 特定 的 输出 格式 。 
例 5.21: 将 例 5.20 中 的 汇总 数据 的 销售 额 用 输出 格式 dollar12.2 显 示 。 


示例 代码 如 下 : 











proc tabulate data=ex.sales halfyear; 
titlel ' 北 美 销售 概况 '; 
title2 ' 产 品类 型 和 季度 角度 分 析 '; 
class type month; 
Var amount; 
table type=' 产 品类 型 '* (month all=' 半 年 汇总 ') all=' 汇 总 ', amount=''* (n=' 销 售 次 数 ' 
mean=' 平 均 销售 金额 '*f=dollar12 .2 sum=' 销 售 金额 之 和 ' *f=dollar12.2)，; 
format month quarter.; 












































run; 


输出 内 容 如 图 5.26 所 示 。 


北美 销售 概况 
产品 闫 型 和 季度 角度 分 析 


销 告 次 数 “平均 销 告 金额 销售 金额 之 和 





11 $785.72 S38,642.95 
3 S663.54 $5,308.35 
19 S734.28 $13,951.30 


6 $531.83 $3,191.00 
7 $790.73 $5,535.10 
13 3671.24 $8,726.10 
并 已 了 < $708.67 $22,677.40 





图 5.26 ” 例 5.21 打 印 输 出 内 容 


上 述 程序 中 ， 用 “*F= 输 出 格式 ”分 别 为 平均 销售 金额 和 销售 金额 之 和 的 汇总 数据 设 定 了 输出 格式 .。 


5.3 ”通过 GPLOT 过 程 制作 图 形 


和 数据 报表 一 样 ， 图 形 也 是 展现 数据 的 重要 方法 ， 图 形 的 直观 效果 是 数据 报表 无 法 替代 的 。SAS/GRAPH 是 SAS 进 行 数据 可 视 化 展现 的 重要 组 成 部 分 ， 具 有 强大 的 作 图 功能 。 可 以 展现 的 图 形 包 括 以 下 这 


` 散 点 图 与 连 线 图 (PLOTS) 
. 图 表 (CHARTS) 

地 图 (MAPS ) 

. 三 维 图 (3D GRAPHICS ) 
. 幻灯 片 (TXET SLIDES) 


本 章 中 主要 介绍 SAS/GRAPH 中 两 个 基本 的 作 图 过 程 : 作 图 过 程 (GPLOT) 和 图 表 过 程 (GCHART) 。 读 者 有 兴趣 可 以 参考 SAs 帮 助 文 档 学 习 更 多 的 作 图 过 程 。 


使 用 GPLOT 过 程 可 以 制作 平面 的 散 点 图 和 连 线 图 。 平 面 的 散 点 图 就 是 以 数据 集中 某 两 个 变量 作为 纵 坐 标 和 横 坐 标 ， 以 每 个 观测 为 一 个 数据 点 ， 数 据 集中 的 多 个 观测 就 形成 一 幅 散 点 图 ， 连 线 图 就 是 将 分 
散 的 数据 点 用 直线 或 者 曲线 连接 起 来 。 散 点 图 和 连 线 图 在 分 析 比 较 数据 的 趋势 时 比较 常用 。 
5.3.1 ”制作 散 点 图 


使 用 GPLOT 过 程 制 作 散 点 图 的 基本 语法 如 下 : 


PROC GPLOT DATA= 数 据 集 ; 
PLOT 纵 坐 标 变量 * 横 坐标 变量 ; 








RUN; 





PLOT 语 句 ， 








RUN; 
QUIT:; 





一 个 GPLOT 过 程 中 可 以 使 用 多 个 RUN 语 句 ， 并 以 QUIT 语 句 结尾 。 每 个 RUN 语 句 中 也 可 以 使 用 多 个 PLOT 语 句 。 


. 在 一 个 PROC 语 多 中 使 用 多 个 RUN 语 句 ， 可 以 针对 不 同 的 图 形 使 用 不 同 的 WHERE 语句 ， 利 用 全 局 语句 定义 不 同 的 标题 、 脚 注 、 坐 标 轴 等 属性 。 在 SAS/GRAPH 中 GPLOT、GCHART、GMAP 和 
GSLIDE 支 持 使 用 多 个 RUN 语 句 。 


.QUIT 语 名 表示 结束 该 PROC 步 。 如 果 在 RUN 语 名 后 面 出 现 其 他 的 PROC 步 或 者 DATA 步 ， 该 PROC 步 也 会 自动 结束 。 


例 5.22: 数据 集 ex.sales_year 中 包含 了 某 公司 自 1998 年 至 今 在 北美 和 欧洲 的 销售 数据 (交易 数量 和 销售 金额 ) 。 其 中 变量 如 下 : 年 份 (Year) 、N _Transactions (北美 的 交易 数量 ) 、N_Amount ( 北 
美的 销售 金额 ) 、E Transactions (欧洲 的 交易 数量 ) 、E_Amount (欧洲 的 销售 金额 ) 。 要 求 制作 一 个 散 点 图 ， 显 示 每 年 的 北美 销售 金额 。 


示例 代码 如 下 : 


proc gplot data=ex.sales year; 
title "Yearly Amount in North America'; 
plot N Amount*Year; 

run; 加 

quit; 





输出 内 容 如 图 5.27 所 示 。 
这 是 最 简单 的 散 点 图 ， 横 坐标 为 Year， 纵 坐标 为 N Amount， 图 形 的 元 素 都 使 用 系统 的 默认 设置 ， 每 个 数据 在 图 上 显示 为 一 个 “+” 号 。 
1. 选 项 RESET= 


由 于 图 形 的 展现 涉及 的 方面 很 多 ， 包 括 颜色 、 线 型 、 字 体 等 ， 因 此 图 形 选项 也 很 多 ， 在 制作 图 形 时 可 以 使 用 GOPTIONS 语 句 来 控制 各 种 选项 。 在 开始 学 习 制 作 图 形 时 ， 不 妨 使 用 选项 RESET=ALL,， 它 可 
使 所 有 的 图 形 选 项 都 恢复 系统 默认 的 设置 。 需 要 注意 的 是 ， 在 使 用 该 选项 之 后 ，TITLE 语 句 与 OOTNOTE 语 句 中 指定 的 标题 和 脚注 也 将 被 取消 。 


2. 使 用 TITLE 和 FOOTNOTE 语 句 设置 标题 和 脚注 


和 前 面 制作 报表 一 样 ， 在 作 图 时 也 可 以 使 用 TITLE 语 句 和 FOOTNOTE 语 句 在 图 形 上 加 入 标题 和 脚注 。 需 要 注意 的 是 ， 在 SAS/GRAPH 中 ，TITLE 语 句 和 FOOTNOTE 语 句 除 了 可 以 设 定 标题 和 脚注 的 内 容 
以 外 ， 还 可 以 对 其 字体 、 大 小 、 颜 色 进行 设 定 。 


在 制作 图 形 时 ，TITLE 语 句 和 FOOTNOTE 语 句 的 使 用 形式 如 下 : 








TITLEn 选项 ' 标 题 内 容 '; 
FOOTNOTEn 选项 ' 脚 注 内 容 '; 














其 中 n=1~10， 缺 省 时 ，n 上 默认 取 值 为 1。TITLEn 和 FOOTNOTEn 的 更 新 和 置换 规则 和 5.2.3 节 中 介绍 的 一 样 。 
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图 5.27 例 5.22 打 印 输出 图 形 
将 所 有 TITLE 语 句 和 FOOTNOTE 语 句 恢复 默认 设置 的 方法 有 以 下 两 种 : 


* GOPTIONS RESET= (TITLE FOOTNOTE) ; 


* GOPTIONS RESET=GLOBAL.; 


表 5.4 是 TITLE 语 句 和 FOOTNOTE 语 句 中 常用 的 选项 。 


表 5.4 TITIE 语 句 和 FOOTNOTE 语 和 句 的 常用 选项 


选 项 作 用 用 法 示例 
FONT=|IF= TITLE F='ALBANY AMT' 'Sales Summary Across State': 
COLOR=|C= 指定 字体 颜色 TITLE C=BLUE 'Sales Summary Across State': 
HEIGHT=|H= TITLE H=14pt 'Sales Summary Across State': 


UNDERLINE=|U= TITLE U=2 'Sales Summary Across State': 





FOOTNOTE!] J=L 'Left Justification' J=C 'Center Justification' J=R 


JUSTIFY=|J= 指定 对 其 方式 
和 - 'Right Justification'; 





3. 使 用 SYMBOL 语 句 设 置 散 点 属性 


在 图 5.27 中 ， 如 果 希 望 输出 的 数据 在 图 上 显示 为 一 个 红色 的 圆 点 ， 该 如 何 进行 设置 呢 ? 这 时 需要 使 用 SYMBOL 语 句 。 在 GPLOT 过 程 中 ，SYMBOL 语 句 用 来 设置 散 点 的 符号 、 颜 色 等 属性 。 使 用 形式 如 
下 : 





SYMBOLn 选项 ; 





其 中 ，n 是 不 同 SYMBOL 的 序号 ， 取 值 为 1~255， 缺 省 时 默认 取 值 为 1。SYMBOL 语 句 和 TITLE 语 句 一 样 是 全 局 语句 ， 可 以 出 现在 PROC 步 前 面 或 PROC 步 的 程序 中 间 。 
将 某 个 SYMBOL 语句 恢复 为 默认 设置 的 方法 如 下 : 


SYMBOLnm 








将 所 有 SYMBOL 语句 都 恢复 为 默认 设置 的 方法 如 下 : 











GOPTIONS RESET=SYMBOL; 

















例 5.23: 在 例 5.22 的 散 点 图 中 ， 将 散 点 符号 换 成 红色 的 “.”。 


示例 代码 如 下 : 





symbol value=dot cv=red; 

proc gplot data=ex.sales year; 

title f='Albany Amt' c=blue h=3 u=2 'Yearly Amount in North America'; 
footnote j=r 'Optimization Solution Co. Ltd'; 

plot N Amount*Year; 


























quit; 
goptions reset=all; 








输出 内 容 如 图 5.28 所 示 。 
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图 5.28 例 5.23 打 印 输出 图 形 
以 上 程序 使 用 SYMBOL 语句 通过 选项 VALUE= 将 散 点 符号 设置 为 圆 点 (.) ， 通 过 选项 CV= 将 散 点 颜色 设置 为 红色 。 并 且 利 用 TITLE 语 句 和 FOOTNOTE 语 句 设 置 了 标题 和 脚注 的 文字 和 属性 。 
可 在 SYMBOL 语句 中 用 不 同 的 选项 来 设置 不 同 的 属性 ， 如 表 5.5 所 示 是 SYMBOL 语句 中 用 于 设置 散 点 属性 的 选项 。 
表 5.5 SYMBOL 语句 常用 散 点 属性 选项 
取 值 举例 


X, SIAR, SQUARE, DIAMOND, DOT, CIRCLE, TRIANGLE. : \=.、 
PLUS 等 





CV= 散 点 和 从 号 颜色 | ”指定 -一 付 号 时 red, green 和 





5.3.2 ”制作 连续 图 


在 SYMBOL 语句 可 以 使 用 选项 INTERPOL= 制 作 连 线 图 。 语 法 如 下 : 


























SYMBOLn ”INTERPOIL= 插 值 方法 ; 








选项 INTERROL= 可 以 简写 为 |=。 其 中 插值 方法 主要 有 以 下 几 种 。 
: NONE: 表示 不 作 连 线 图 ， 这 是 系统 默认 取 值 。 


.JOIN: 表示 将 数据 点 按照 数据 集中 出 现 的 顺序 用 直线 连接 。 





. SPLINE: 表示 使 用 光滑 的 插值 曲线 将 数据 点 按照 数据 集中 出 现 的 顺序 连接 起 来 ， 并 且 使 得 曲线 经 过 每 个 数据 点 

" SMnn: 表示 用 光滑 的 插值 曲线 来 拟 合 数据 点 ， 曲 线 可 以 不 经 过 数据 点 ，nn 的 取 值 为 0~99， 取 值 越 大 ， 插 值 曲线 的 光滑 程度 越 高 。 

" Rxyzzzmm: 表示 根据 数据 点 作 回 归 线 ，x 表 示 回 归 类 型 ， 取 值 为 L、Q、C; y 表 示 回 归 线 是 否 过 数据 点 ， 取 值 为 0、1; zzz 表 示 置 信 限 ， 取 值 为 CLM、CLI; mm 表示 置信 水 平 。 
. NEEDLE: 表示 针对 每 个 点 画 一 条 从 点 到 横 坐标 轴 的 连 线 。 

“ STEPxyz: 表示 制作 阶梯 图 ，x 表 示 数 据点 在 阶梯 上 的 位 置 ， 取 值 为 L、R、C; y 表 示 竖 线 连接 各 阶梯 ; z 表 示 是 否 对 数据 按 横 坐 标 变量 排序 。 

同时 ，SYMBOL 语 句 中 还 提供 了 更 多 的 选项 来 控制 连 线 线 型 、 粗 细 、 颜 色 等 属性 。 如 表 5.6 所 示 是 SYMBOL 语句 中 常用 的 设置 连 线 属性 的 选项 。 


表 5.6 SYMBOL 语句 常用 连 线 属 性 选项 





选 项 取 值 举例 
WIDTH=n 或 W=n 指定 连 线 的 粗细 n 为 数值 ， 数 值 越 大 ， 连 线 越 粗 
i > s | n 的 取 值 为 1 ~ 46， 每 一 个 数 代 表 革 一 种 线 型 ， 
LINE= 线 型 或 L= 线 型 指定 连 线 的 线 型 a bt 
( 绥 ) 
选 项 取 值 举例 


CI= 连 线 颜色 red 、yellow 、blue 等 


COLOR= 颜色 或 C= 颜色 





red、yellow 、blue 等 


下 面 将 例 5.23 中 图 形 的 散 点 用 蓝 色 的 实 线 连 接 起 来 。 示 例 代 码 如 下 : 





symbol value=dot cv=red 
interpol=join ci=blue; 
proc gplot data=ex.sales _year; 
title 'Yearly Amount in North America'; 
plot N Amount*Year; 














goptions reset=all; 





输出 内 容 如 图 5.29 所 示 。 
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图 5.29 ” 例 5.23 打 印 输出 用 实 线 连接 散 点 的 图 形 


当 定 义 了 多 个 SYMBOL 语句 时 ， 可 以 使 用 以 下 语法 来 指定 图 形 使 用 特定 的 SYMBOL 语句 设置 的 属性 : 





PLOT 纵 坐标 变量 * 横 坐标 变量 =n; 











该 语句 表示 该 散 点 图 使 用 SYMBOLn 设 置 的 属性 。 


1. 使 用 选项 HAXIS= 和 VAXIS= 控 制 坐标 轴 取 值 范围 


在 图 5.29 中 ， 可 观察 到 横 坐 标的 取 值 范围 为 1990~2020。 其 实 我 们 的 数据 集中 年 份 截止 到 2012 年 。 如 果 想 使 得 图 形 中 横 坐 标的 取 值 范围 为 1990~2012， 该 如 何 设置 呢 ? 作 图 语句 中 提供 了 选项 HAXIS= 
和 选项 VAXIS=， 可 以 用 来 分 别 设 定 横 坐 标 和 纵 坐 标的 取 值 范围 。 如 : 


symbol value=dot cv=red 
interpol=join ci=blue; 
proc gplot data=ex.sales year; 
title 'Yearly Amount in North America'; 
plot N Amount*Year /haxis=1990 to 2012 by 5; 














goptions reset=all; 


除了 这 样 直接 定义 坐标 轴 的 取 值 范围 以 外 ， 还 可 以 通过 AXIS 语 句 来 进行 这 一 操作 。AXIS 语 句 除了 可 以 设 定 坐标 轴 范 围 ， 还 可 以 对 坐标 轴 进 行 更 加 丰富 的 设置 。 


2. 使 用 AXIS 语 句 设 置 坐 标 轴 属 性 


通过 AXIS 语 句 可 以 设 定 坐 标 轴 的 刻度 范围 、 颜 色 、 描 述 标签 、 每 两 个 主 刻 度 中 间 次 刻度 的 个 数 等 属性 。 和 SYMBOL 语 句 一 样 ，AXIS 语 句 也 是 全 局 语句 ， 它 也 可 以 用 于 其 他 作 图 过 程 中 坐标 轴 的 设置 。 
AXIS 语 句 的 形式 如 下 : 


AXISn 选项 ; 





其 中 ，n 是 不 同 AXIs 的 序号 ， 取 值 为 1~99， 缺 省 时 默认 取 值 为 1。SYMBOL 语 句 和 TITLE 语 名 一样 是 全 局 语句 ， 可 以 出 现在 PROC 步 前 面 或 PROC 步 的 程序 中 间 。 


将 某 个 AXIS 语 句 恢复 为 默认 设置 的 方法 如 下 : 





将 所 有 AXIS 语 句 都 恢复 为 默认 设置 的 方法 如 下 : 





GOPTIONS RESET=AXIS; 

















在 GPLOT 过 程 中 使 用 AXIS 语 句 的 形式 如 下 : 


PROC GPLOT DATA= 数 据 集 ; 
PLOT 纵 坐 标 变量 * 横 坐标 变量 / HAXIS=AXISn VAXIS=AXISm; 
AXISn 选项 ; 

RUN; 

QUIT; 


























其 中 ，HAXIS=AXISn 指 明 纵 坐标 用 AXISn 语 句 设 定 的 属性 ，VAXIS=AXISm 指 明 横 坐标 用 AXISm 语 句 设 定 的 属性 ，AXISn 语 句 可 以 出 现在 PROC 步 前 面 或 者 PROC 步 中 间 。 
例 5.24: 在 以 下 的 连 线 图 中 对 横 坐 标 和 纵 坐 标的 主 刻度 和 次 刻度 进行 设 定 。 
示例 代码 如 下 : 


axisl order=(1990 to 2012 by 5) }; 
axis2 order=(13000 to 20000 by 1000) 
minor= (color=blue height=0.25 numoer=1) ， 
symbol value=dot cv=red 
interpol=join ci=blue; 
proc gplot data=ex.sales year; 
title "Yearly Amount in North America'; 
plot N Amount*Year/haxis=axis] vaxis=axis2; 
































goptions reset=all; 


输出 内 容 如 图 5.30 所 示 。 
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图 5.30” 例 5.24 打 印 输出 图 形 


在 上 面 的 程序 中 ， 先 通过 AXIS 语 句 设置 了 AXIS1 和 AXIS2， 在 AXIS1 中 规定 坐标 轴 的 取 值 为 1990~2012， 每 5 个 点 一 个 主 刻 度 ， 每 个 主 刻度 中 间 有 一 个 次 刻度 ， 次 刻度 显示 为 蓝 色 ， 同 理 还 定义 了 
AXIS2。 在 PLOT 语 句 中 ， 使 用 选项 HAXIS=AXIS1 和 VAXIS=AXIS2 分 别 指定 了 横 坐 标 和 纵 坐 标 调用 AXIS1 和 AXIS2 设 置 的 属性 。 


本 


AXIS 语 句 中 的 选项 很 多 ， 用 法 也 非常 丰富 ， 这 里 简单 罗列 了 一 些 常 用 的 选项 及 用 法 示例 ， 如 表 5.7 所 示 。 读 者 如 需要 深入 学 习 AXIS 语 句 的 使 用 ， 可 以 参考 SAS 帮 助 文档 。 


表 5.7 AXIS 语 名 常用 选项 


选 项 用 法 示例 
首 定 主 刻度 显示 的 值 ， 可 以 _ ee | 
ORDER= Wen AXIS1 ORDER=(1 to 6):AXIS2 ORDER=('Spain','ltaly','France'): 
是 数值 和 文字 
指定 主 刻度 的 显示 属性 ， 如 
MAJOR= 加 pp AXIS3 MAJOR=(COLOR=RED HEIGHT=2 ): 
颜色 、 高 度 、 粗 细 、 个 数 等 
MINOR= 指定 次 刻度 的 显示 属性 AXIS4 MINOR=(COLOR=ORANGE HEIGHT=1 NUMBER=1): 
LENGTH= 指定 坐标 轴 的 长 度 AXISS LENTH=6IN: 
指定 坐标 轴 标 签 的 属性 ， 如 
LABEL= Rs AXIS6 LABEL=(COLOR=blue HEIGHT=2 'Buget Month'"): 
颜色 、 高 度 、 字 体 等 
ee 指定 坐标 轴 上 主 刻度 的 显示 | AXIS7 VALUE=(color=orange t=1 '90 年 ' t=2 color=red '95 年 ' 


文字 及 其 属性 t=3 '00 年 't=4'05 年 't=5 '10 年 ): 





5.3.3 ”制作 多 幅 图 形 


前 面 提 到 在 一 个 GPLOT 过 程 中 可 以 使 用 多 个 PLOT 语 句 ， 这 时 每 个 语句 都 可 以 制作 一 幅 单独 的 图 形 。 其 实 ， 使 用 一 个 PLOT 语 句 也 可 以 制作 多 幅 图 形 。 使 用 语法 如 下 : 





PLOT 纵 坐 标 变量 1* 横 坐标 变量 1 纵 坐 标 变量 2* 横 坐标 变量 2 < … / 选项 >; 











例 5.25: 绘制 北美 销售 金额 连 线 图 和 欧洲 销售 金额 连 线 图 。 


示例 代码 如 下 : 





axisl order=(1990 to 2012 by 5) 
minor= (color=blue numoer=1) ， 
axis2 order=(13000 to 20000 by 1000) 
minor= (color=blue height=0.25 numoer=1) ， 
symbol value=dot cv=red 
interpol=join ci=blue; 
proc gplot data=ex.sales year; 
title 'Yearly Amount Series'} 
plot N Amount*Year E Amount*Year/haxis=axisl vaxis=axis2; 















































goptions reset=all; 


输出 内 容 如 图 5.31 所 示 。 
上 述 程序 制作 了 两 幅 图 ， 第 一 幅 是 由 PLOT 语 句 中 的 N_Amount*Year 制 作 的 ， 第 二 幅 是 由 E_Amount*Year 制 作 的 ， 两 幅 图 上 横 纵 坐 标的 尺度 都 相同 。 


为 了 进行 比较 ， 有 时 需要 将 多 条 连 线 绘制 在 同一 幅 图 形 中 。 例 如 ， 为 了 比较 北美 和 欧洲 的 销售 及 变化 趋势 ， 除 了 上 面 的 做 法 ， 更 方便 的 是 将 北美 和 欧洲 的 销售 连 线 图 画 在 同一 幅 图 形 中 。 又 如 在 进行 时 
间 序 列 分 析 时 ， 为 了 比较 预测 值 和 实际 值 的 趋势 及 大 小 ， 也 需要 在 同一 幅 图 中 比较 。 
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图 5.31 例 5.25 打 印 输 出 图 形 
在 同一 幅 图 形 中 绘制 多 条 连 线 有 以 下 3 种 方法 : 
. 使 用 选项 上 VERLAY 过 加 图 形 。 
` 使 用 PLOT2 语 名 县 加 图 形 。 
. 使 用 分 组 变量 制作 多 条 连 线 图 。 


下 面 将 具体 介绍 每 种 方法 及 其 使 用 场景 ， 读 者 可 以 根据 具体 的 数据 集 选 用 不 同 的 方法 。 


1. 使 用 选项 OVERLAY 革 加 图 形 
使 用 选项 OVERLAY 可 以 将 同一 个 PLOT 语 句 中 的 多 个 图 形 展现 在 同一 幅 图 形 中 。 
例 5.26: 将 例 5.25 中 的 两 条 连 线 绘制 在 同一 图 形 中 。 
示例 代码 如 下 : 


axisl order=(1990 to 2012 by 5) 
minor= (color=blue number=1); 
axis2 order=(13000 to 20000 by 1000) 
minor= (color=blue height=0.25 numoer=1) ， 
symboll value=dot cv=red 
interpol=join ci=red; 
symbol2 value=# cv=green interpol=join ci=green line=4; 
proc gplot data=ex.sales year; 
title 'Yearly Amount Series'; 
plot N Amount*Year E Amount*Year/overlay legend haxis=axisl vaxis=axis2; 
run; 加 
quit; 
goptions reset=all; 




































































输出 内 容 如 图 5.32 所 示 。 


由 于 两 个 连 线 在 同一 图 形 中 ， 系 统 约定 由 SYMBOL1 语 句 设 定 第 一 条 连 线 ，SYMBOL2 语 句 设 定 第 二 条 连 线 。 所 以 当 有 多 条 连 线 时 ， 应 该 以 不 同 序 号 的 SYMBOL 语 句 分 别 设 定 相 应 的 连 线 属性 。 
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图 5.32 例 5.26 中 打印 输出 包含 两 条 连 线 的 图 形 
@ 注 意 除非 特别 指定 ， 否 则 每 个 YMBOL 语 和 句 设 定 的 属性 在 一 个 作 图 过 程 中 只 使 用 一 次 。 
当 同 一 图 形 中 有 多 条 连 线 时 ， 为 了 区 分 连 线 的 含义 ， 需 要 使 用 选项 LEGEND 添 加 图 例 。 上 述 程序 中 ， 通 过 图 形 下 方 的 图 例 ， 可 以 很 清楚 地 区 分 红线 代表 北美 的 销售 额 ， 黄 线 代 表 欧 洲 的 销售 额 。 
2. 使 用 PLOT2 语 句 睹 加 图 形 


使 用 PLOT2 语 句 可 以 为 其 所 指定 的 纵 坐 标 变量 在 图 的 右 侧 设立 一 条 垂直 坐标 轴 ， 这 样 不 同 的 纵 坐 标 变量 就 可 以 使 用 不 同 的 纵 轴 尺 度 。PLOT2 语 句 的 使 用 方法 和 PLOT 语 句 一 样 。 使 用 语法 如 下 : 





PLOT2 纵 坐 标 变量 1* 横 坐标 变量 1 < 纵 坐 标 变量 2* 横 坐标 变量 2 ”.… > </ 选项 >; 














例 5.27: 使 用 PLOT2 语 句 修改 5.26 的 程序 。 


示例 代码 如 下 : 





(1990 to 2012 by 5) 
= (color=blue number=1); 
axis2 order=(13000 to 20000 py 1000) 
pe 
( 

















color=blue height=0.25 number=1); 








minor= (number=1);} 
symboll value=dot cv=red 
interpol=join ci=red; 
symbol2 value=diamond cv=green height=2 interpol=join ci=green line=10; 
proc gplot data=ex.sales year; 
title 'Yearly Amount Series'} 
plot N Amount*Year /legend haxis=axisl vaxis=axis2; 
plot2 N Transations*Year/legend vaxis=axis3; 






































goptions reset=all; 


输出 内 容 如 图 5.33 所 示 。 


Yearly Amount Senes 


N_Amount _N_Transations 
20000 200 
goo0, 190 
oo -180 
网 一 全 一 人 170 


168000- Py k 1650 


a 


15000 2 150 


14000- Ny -140 


< 


1930 1 号 95 2000 2005 2010 
Year 
PLOT2 *=** N Transations 


PLOT NN_Amount 
图 5.33 ”过 加 图 形 
在 上 述 程序 中 ， 需 要 注意 以 下 几 点 : 
. 在 GPLOT 过 程 中 使 用 PLOT2 语 和 句 时 ， 必 须 使 用 PLOT 语 句 。 
. 如 果 需 要 显示 所 有 图 形 的 图 例 ， 需 要 在 PLOT 语 句 和 PLOT2 语 和 句 中 都 使 用 选项 LEGEND， 如 图 5.33 所 示 。 


. 使 用 PLOT2 语 句 ， 可 以 使 用 选项 VAXIS= 专 门 设 定 右 边 坐 标 轴 的 属性 。 


3. 使 用 分 组 变量 制作 多 条 连 线 图 


前 面 在 介绍 车 加 图 形 时 可 看 到 ， 不 同 图 形 的 纵 坐标 变量 都 存储 在 数据 集中 的 不 同 字 段 下 。 当 纵 坐 标 变量 的 数据 都 存储 在 数据 集中 的 同一 字段 下 时 ， 如 何 制 作 多 条 连 线 图 ? 这 时 就 需要 指定 第 3 个 变量 , 根 
据 第 3 个 变量 的 不 同 取 值 ， 在 同一 幅 图 中 制作 多 条 连 线 图 ， 也 称 这 第 3 个 变量 为 分 组 变量 。 其 基本 语法 如 下 : 





PLOT 纵 坐标 变量 * 横 坐标 变量 = 分 组 变量 </ 选 项 >; 











当 使 用 分 组 变量 时 ， 系 统 默认 提供 图 例 。 


例 5.28: 数据 集 ex.sales_year_by_area 中 是 全 球 4 个 地 区 的 历年 销售 数量 和 销售 金额 的 数据 ， 包 含 4 个 变量 : 年 份 (Year) 、 销 售 数量 (Transactions) 、 销 售 金 额 (Amount) 、 地 区 (Area) 。 现 在 
要 在 同一 幅 图 中 制作 多 条 连 线 图 展现 每 个 地 区 历年 销售 金额 的 情况 。 


示例 代码 如 下 : 





axisl order=(1990 to 2012 by 5) 
minor= (color=blue number=1); 
axis2 minor=(color=blue height=0.25 numoer=1) ， 
symbol value=: height=2 interpol=join; 
proc gplot data=ex.sales year by area; 
title 'Yearly Amount Series By Area'; 
plot Amount*Year=Area/haxis=axisl vaxis=axis2 } 
































run; 
uit: 
goptions reset=all; 





输出 内 容 如 图 5.34 所 示 。 
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图 5.34 例 5.28 打 印 输出 图 形 
在 上 述 程 序 中 ， 只 使 用 了 一 个 SYMBOL 语 句 ， 定 义 了 插值 方法 、 散 点 符号 和 大 小 ， 但 是 没有 指定 颜色 。 因 此 在 图 形 中 ， 每 条 连 线 都 使 用 了 相同 的 散 点 符号 ， 不 一 样 的 颜色 ，。 
@ 注 意 ”在 SYMBOL 语句 中 没有 指定 颜色 时 ， 该 语句 中 定义 的 属性 将 被 重复 使 用 ， 颜 色 按 照 选 项 COLORS= 中 指定 的 颜色 或 者 系统 颜色 列表 中 的 颜色 依次 循环 调用 。 
4. 使 用 LEGEND 语 句 设 置 图 例 属性 


当 一 幅 图 形 中 有 多 条 连 线 时 ， 为 了 辨识 每 条 连 线 的 含义 ， 可 在 PLOT 语 句 中 使 用 选项 [LEGEND 在 图 形 中 增加 图 例 ， 此 时 选项 LEGEND 使 用 了 默认 的 方式 显示 图 例 。 这 里 将 介绍 如 何 使 用 LEGEND 语 句 对 图 
例 的 大 小 、 布 局 、 边 框 、 位 置 及 图 例 中 文字 的 属性 进行 更 加 丰富 的 设置 。 


LEGEND 语 句 的 使 用 方法 如 下 : 














LEGENDn 选项 ; 





其 中 n=1~99， 默 认 取 值 为 1。LEGEND 语 句 是 全 局 语句 ， 更 新 规则 和 SYMBOL 语句 一 样 。 


将 某 个 [LEGEND 语句 恢复 为 默认 设置 的 方法 如 下 : 























GOPTIONS RESET=LEGEND; 




















如 表 5.8 所 示 是 一 些 常用 选项 ， 主 要 分 为 3 大 类 别 。 


表 5.8 ”LEGEND 语句 常用 选项 


用 法 示例 


分 类 | 选项 | 作用 


在 图 例 区 加 外 框 ， 缺 省 地 使 用 颜 


LEGEND LABEL=(COLOR=BLUE 
FONT='Courier New') Position=(Top 
Center) 'Product Type 


指定 图 例 区 标签 颜色 、 高 度 、 字 


AB E 下 a WA ap PR / 
体 和 位 置 及 文字 内 容 属性 


图 例 区 标签 


和 文字 属性 





指定 图 例 颜色 、 高 度 、 字 体 及 文 | LEGEND VALUE=(COLOR=BLUE 


VALUE= ve 


FRAME ee et LEGEND FRAME: 
颜色 相关 的 ee 忆 z [ 到 |] 人 三 *" A a 立 到 tr T 
ye CFRAME= 指定 图 例 区 背景 颜色 LEGEND CFRAME=YELLOW: 
了 
CBORDER= LEGEND CBORDER=ORANGE: 
CSHADOW= LEGEND CSHADOW=BLUE: 
ACROSS=n LEGEND ACROSS=2: 
DOWN=n 总 共 分 1 行 排列 LEGEND DOWN=1: 
mi Dowssa 人 行 排 
位 置 选 项 LEGEND POSITION=(BOTTOM 
POSITION= 指明 图 例 区 加 图 形 中 的 位 置 MIDDLEITOP LEFTICENTERIRIGHTOUT 
SIDEIINSIDE) 





在 GPLOT 过 程 中 绘制 多 条 连 线 图 时 ， 调 用 LEGEND 语 句 设置 的 图 例 属性 的 方法 如 下 : 





LEGEND=LEGENDnN; 

















例 5.29: 将 例 5.28 中 的 图 例 放 在 连 线 图 横 坐 标 下 面 的 中 间 部 分 ， 分 两 排 排列 ， 并 将 图 例 区 加 上 深蓝 的 边框 和 浅 蓝 的 阴影 。 
示例 代码 如 下 : 


axisl order=(1990 to 2012 by 5) 
minor= (color=blue number=1); 
axis2 minor=(color=blue height=0.25 numoer=1) ， 
legendl cborder=blue cshadow=lightblue across=2 position= (bottom center) label= 
(color=lightpurple height=1.5 font='Courier New' 'Global'); 
symbol value=: height=2 interpol=join; 
proc gplot data=ex.sales year by area; 
title 'Yearly Amount Series By Area'; 
plot Amount*Year=Area/haxis=axisl vaxis=axis2 legend=legendl1; 


















































goptions reset=all; 





输出 内 容 如 图 5.35 所 示 。 
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上 述 程序 中 使 用 LEGEND1 语 


5.3.4 制作 气泡 图 
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图 5.35 ” 例 5.29 打 印 输出 图 形 


句 设置 了 图 例 的 属性 ， 并 在 PLOT 语 句 中 调用 了 LEGEND1。 


在 GPLOT 过 程 中 可 以 使 用 BUBBLE 语 句 制作 气泡 图 。 基 本 语法 如 下 : 





2010 





好 








BUBBLE 纵 坐 标 变量 * 横 坐标 变量 

















= 气泡 变量 </ 选项 > :; 


气泡 图 有 3 个 维度 ， 包 括 : 纵 坐 标 变量 、 横 坐标 变量 和 气泡 变量 ， 它 们 都 是 数据 集中 的 变量 ， 其 中 纵 坐 标 变量 和 横 坐 标 变量 确定 气泡 的 位 置 ， 气 泡 变量 确定 气泡 的 大 小 ， 所 以 气泡 变量 必须 是 数值 型 变 


例 5.30: 利用 数据 集 ex.sales_ year 制 作 气 泡 图 ， 反 映 欧 洲 地 区 历年 的 销售 情况 。 


示例 代码 如 下 : 





axis2 minor=(color=blue height=0.25 numoer=1) ， 











proc gplot data=ex.sales year; 
title 'Yearly Sales Overview'; 





bubble E Amount*Year= 








where year>=1999; 





Gil 
goptions reset=all; 





输出 内 容 如 图 5.36 所 示 。 


E Transactions/vaxis=axis2 
bcolor=red bsize=12; 
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图 5.36 ” 例 5.30 打 印 输出 气泡 图 


在 上 述 代码 中 纵 坐 标 为 销售 金额 ， 横 坐标 为 年 份 ， 销 售 数量 决定 了 气泡 的 大 小 ， 并 且 在 BUBBLE 语 句 使 用 了 选项 BCOLOR= 和 BSIZE= 来 设 定 气泡 的 显示 属性 。 在 图 5.36 的 方 框 中 ， 两 个 气泡 分 别 表示 
2010 年 和 2011 年 的 销售 情况 ， 从 销售 金额 来 看 ，2011 年 比 2010 年 有 所 上 升 (气泡 所 处 的 位 置 升 高 ) ， 从 销售 数量 来 看 ，2011 年 比 2010 年 下 降 了 (和 气泡 的 大 小 变化 ) ， 由 此 可 以 推断 ， 单 位 数量 的 销售 金额 
从 2010 年 到 2011 年 提高 了 。 可 见 ， 使 用 气泡 图 能 更 加 直观 地 反映 多 个 维度 的 信息 。 


此 外 ，BUBBLE 语 句 中 提供 了 更 多 的 选项 供 读者 自行 定义 气泡 图 的 显示 属性 ， 详 见 SAs 帮 助 文档 。 


5.4 ”通过 GCHART 过 程 制 作 图 形 


本 节 介 绍 如 何 使 用 GCHART 过 程 制作 图 形 。GCHART 过 程 展现 的 是 数据 集 的 汇总 信息 ， 也 就 是 统计 量 ， 这 和 前 面 介绍 的 TABULATE 过 程 相 似 。 同 样 ，TABULATE 过 程 中 关于 分 类 变量 和 分 析 变 量 的 用 法 
在 这 里 也 适用 。 


5.4.1 制作 柱状 图 


使 用 GCHART 过 程 制作 柱状 图 的 一 般 形 式 如 下 : 



































PROC GCHART DATA= 数 据 集 ， 
VBAR 变量 1 < 变量 2 ...> </ 选 项 >; 
VBAR3D 变量 3 < 变量 4 ..> </ 选 项 >; 
HBAR 变量 5 < 变量 6 ...> </ 选 项 >; 
HBAR3D 变量 7 < 变量 8...> </ 选 项 >; 

RUN; 

QUIT; 

其 中 : 


. VBAR 和 VBAR3D 是 图 形 名 ， 分 别 表示 制作 垂直 柱状 图 和 三 维 重 直 柱 状 图 。 
:HBAR 和 HBAR3D 也 是 图 形 名 ， 分 别 表 示 制 作 水 平 柱状 图 和 三 维 水 平 柱状 图 ， 这 里 将 VBAR、VBAR3D、HBAR、HBAR3D 语 名 统称 为 作 图 语句 。 


变量 1、 变 量 2、 变 量 3 等 称 为 作 图 变量 。 根 据 它 的 不 同 取 值 ， 系 统 将 数据 分 为 若干 类 别 ， 分 别 用 柱 的 长 度 或 者 高 度 展 示 分 类 数据 的 汇总 结果 。 黑 认 情 况 下 ， 柱 的 长 度 或 者 高 度 代表 各 类 别 的 频数 。 作 图 


例 5.31: 利用 数据 集 ex.sales_halfyear 中 的 数据 ， 分 别 制作 简单 的 垂直 柱状 图 和 水 平 柱状 图 展示 每 个 州 的 交易 频数 。 


示例 代码 如 下 : 





proc gchart data=ex.sales halfyear; 
title 'Monthly Transaction Summary'; 
vbar state; 
vbar3d state; 
hbar state; 
hbar3d state; 

Pi 

quit; 


输出 内 容 如 图 5.37 和 图 5.38 所 示 。 
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图 5.37” 例 5.31 输 出 垂直 柱状 图 和 三 维 重 直 柱 状 图 
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图 5.38 例 5.31 输 出 水 平 柱状 图 和 三 维 水 平 柱状 图 


在 以 上 代码 中 ， 用 同一 作 图 变量 state 制 作 了 不 同类 型 的 汇总 图 形 。 作 图 变量 state 是 字符 型 变量 ， 所 以 每 一 个 州都 会 用 一 个 柱 来 表示 ， 柱 的 高 度 和 长 度 表 示 该 州 的 交易 频数 。 并 且 ， 我 们 也 可 以 观察 到 ， 
图 形 中 柱 的 排列 次 序 是 按照 作 图 变量 取 值 的 升序 排列 的 。 在 水 平 柱状 图 的 右 侧 ， 系 统 还 默认 输出 了 FREQ、CFREQ、PERCENT、CPERCENT 等 统计 量 ， 分 别 表示 频数 、 累 计 频 数 、 频 数 百 分 比 和 累计 频数 百 


分 比 。 
1. 和 作 图 变量 相关 的 选项 


从 前 面 的 例子 中 ， 我 们 已 经 知道 当 作 图 变量 是 字符 型 变量 时 ， 变 量 的 每 个 取 值 用 一 个 柱 来 表示 。 当 作 图 变量 是 数值 型 的 ， 默 认 情 况 下 ， 系 统 将 作 图 变量 当成 是 连续 性 变化 的 ， 并 按照 变量 的 取 值 学 围 将 
其 划分 为 若干 个 等 长 的 区 间 ， 每 个 区 间 用 一 个 柱 表示 ， 每 个 柱 的 标签 (在 柱子 的 底 端 ) 显示 为 区 间 的 中 点 值 (Midpoint) 。 


如 表 5.9 所 示 是 可 以 用 来 控制 柱 的 排列 次 序 、 个 数 及 显示 内 容 的 一 些 选项 。 


表 5.9 见 的 用 来 控制 柱 的 选项 


选 项 作 用 


DISCRETE 当 作 图 变量 是 数值 型 变量 时 ， 使 得 变量 的 每 个 取信 表示 一 类 

LEVELS=n 当 作 图 变量 是 数值 型 变量 时 ， 指 定 n 个 分 类 

MIDPOINTS= A i 到 但 型 变 . 有 列举 每 个 区 间 的 中 点 的 取 值 及 次 序 ; 当 作 图 变量 是 字符 型 变 
量 时 ， 列 举 变 量 的 取 值 及 次 序 ， 未 被 列举 的 值 不 在 图 中 显示 

RANGE 在 每 个 柱 瓜 端 显示 作 图 变量 的 取 值 学 围 

ASCENDING 按 统计 量 值 的 升序 排列 各 个 柱 

DESCENDING 按 统计 量 值 的 降序 排列 各 个 柱 


例 5.32: 利用 上 述 选项 制作 柱状 图 并 分 析 选 项 的 作用 。 


示例 代码 如 下 : 








proc gchart data=ex.sales halfyear; 
title 'Monthly Transaction Summary' 7 
vbar month/discrete } 
vbar month/level=2 range; 
vbar month/midpoints=1 to 6 by 2; 
run; 
quit; 
goptions reset=all; 














输出 内 容 如 图 5.39 所 示 。 
由 于 month 是 数值 型 变量 ， 取 值 为 1~6， 因 此 在 第 一 个 VBAR 语 句 中 使 用 了 选项 DISCRETE， 这 使 得 在 第 一 幅 图 中 ， 每 个 月 都 由 一 个 柱 表 示 。 在 第 二 个 VBAR 语 句 中 ， 使 用 了 选项 LEVEL=2 和 RANGE， 这 
让 month 根 据 取 值 分 为 为 2 类 ， 在 显示 的 时 候 ， 在 柱 的 底 端 显示 的 是 month 的 取 值 范围 ， 而 不 是 区 间 的 中 点 值 。 
2. 指 定 分 析 变 量 和 统计 量 
和 TABULATE 过 程 一 样 ， 在 GCHART 过 程 中 可 以 指定 分 析 变 量 和 统计 量 ， 展 示 除 频数 以 外 的 汇总 数据 。 在 作 图 语句 中 ， 可 以 使 用 选项 SUMVAR= 和 选项 TYPE= 来 分 别 指定 分 析 变 量 和 统计 量 。 
. 选项 SUMVAR= 的 取 值 为 数值 型 变量 ， 当 使 用 选项 SUMVAR= 而 没有 使 用 选项 TYPE= 时 ， 默 认 统计 量 为 求 和 统计 量 。 


. 选项 TYPE= 的 取 值 可 以 为 FREG、CFREQ、PERCENT、CPERCENT、SUM 或 者 MEAN 中 的 一 个 。 当 选项 TYPE=SUM 或 者 TYPE=MEAN 时 ， 必 须 使 用 选项 SUMVAR= 指 定 分 析 变 量 。 
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图 5.39 ” 例 5.32 打 印 输出 图 形 
例 5.33: 制作 柱状 图 显示 各 州 销售 金额 汇总 数据 。 
示例 代码 如 下 : 


proc gchart data=ex.sales halfyear; 
title 'Sales Summary Across State'; 
hbar state/sumvar=amount type=sum descending; 
Un” 
quit; 
goptions reset=all; 


输出 内 容 如 图 5.40 所 示 。 


在 以 上 程序 中 ， 指 定 amount 为 分 析 变 量 ， 统 计量 为 求 和 统计 量 ， 并 且 使 用 选项 DESCENDING 让 柱 形 按 照 销 售 金额 从 大 到 小 排列 。 对 于 (三维 ) 水 平 柱状 图 ， 系 统 还 在 右边 显示 FREQ 和 SUM 统 计量 的 
。 读 者 也 可 以 自行 决定 在 (三维) 水 平 柱状 图 的 右边 显示 什么 样 的 统计 量 ， 可 选 统计 量 有 FREG、CFREQ、PERCENT、CPERCENT、SUM 和 MEAN， 可 以 是 其 中 的 一 个 或 者 多 个 。 如 果 不 想 显示 统计 
， 可 以 使 用 选项 NOSTATS。 


Sales Summarvy Across State 
FREQ.，amount 总 和 





State 
MD 44 464B 
NY 8 44443 
FL 3 3517 
IL 4 2945 
NC 4 2398 
CA 3 2116 
MA 44 2008 
0 1000 2000 3000 4000 5000 
amount 总 和 


图 5.40 例 5.33 打 印 输出 图 形 


例 5.34: 制作 柱状 图 显示 各 州 销售 金额 汇总 数据 ， 并 在 右 侧 显示 SUM 统 计量 和 MEAN 统 计量 的 取 值 。 


示例 代码 如 下 : 





proc gchart data=ex.sales halfyear; 
title 'Sales Summary Across State'; 
hbar state/sumvar=amount 
type=sum descending 
sum mean; 
a hg 
quit; 
goptions reset=all; 


输出 内 容 如 图 5.41 所 示 。 


state amount 总 和 amount 均值 
MD 和 站 上 4 电 1182 
NY 4443 555 
FL 3517 1172 
IL 有 245 7 了 36 
NC 2398 500 
CA 2116 05 
MA 2008 S502 








图 5.41 例 5.34 打 印 输出 图 形 


在 上 述 示例 中 ， 选 项 TYPE=SUM 指 定 了 柱状 图 中 显示 的 统计 量 ， 下 一 行 的 SUM MEAN 指 定 了 显示 在 图 右边 的 统计 量 ， 在 右边 显示 的 统计 量 可 以 和 选项 TYPE= 指 定 的 统计 量 不 同 。 
对 于 (三维) 水平 柱 状 图 ， 可 以 在 右 侧 显 示 统计 量 的 数值 ， 对 于 (三维 ) 垂直 柱状 图 ， 可 以 在 柱 的 内 部 或 外 部 显示 统计 量 的 数值 ， 允 许 的 统计 量 也 为 选项 TYPE= 的 6 个 统计 量 。 
在 柱 外 部 显示 统计 量 的 数值 时 ， 使 用 方法 如 下 : 


统计 量 或 者 OUTSIDE= 统 计量 


在 柱 内 部 显示 统计 量 的 数值 时 ， 使 用 方法 如 下 : 





NSIDE= 统 计量 











这 里 显示 的 统计 量 也 可 以 和 选项 TYPE= 中 指定 的 统计 量 不 同 。 
例 5.35: 将 例 5.34 中 的 图 形 换 成 垂直 柱状 图 ， 并 在 柱 内 部 显示 和 百分比， 在 柱子 外 部 显示 销售 金额 。 


代码 如 下 : 





proc gchart data=ex.sales halfyear; 
title 'Sales Summary Across State'; 
vbar state/sumvar=amount 


type=sum 
outside=sum inside=pct 
width=10; 
format amount dollarl10.2; 
run; 
quit; 


goptions reset=all; 


输出 内 容 如 图 ?.42 所 示 。 


Sales Summary Across State 
amount 总 和 
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$4,648.20 
$4.442.75 
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$2 .008 00 
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$1.000.00 
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3. 使 用 PATTERN 语句 设置 柱状 图 的 花纹 和 颜色 


在 上 面 的 例子 中 ， 每 个 柱 都 是 使 用 系统 默认 的 颜色 来 填充 的 。 实 际 上 ， 在 使 用 GCHART 过 程 制 作 柱 状 图 时 ， 可 以 对 每 个 柱 的 颜色 和 花纹 进行 设 定 ， 这 是 通过 PATTERN 语句 实现 的 。PATTERN 语 句 类 似 
于 SYMBOL 语句 ， 也 是 全 局 语句 。 使 用 形式 如 下 : 


PATTERNn 选项 ; 


其 中 ，n 是 不 同 PATTERN 的 序号 ， 取 值 为 1~255， 缺 省 时 默认 取 值 为 1， 如 图 5.43 所 示 。PATTERN 语 句 和 前 面 介绍 的 全 局 语句 一 样 ， 可 以 出 现在 PROC 步 前 面 或 PROC 步 的 程序 中 间 。 
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图 5.43 ”柱子 花纹 图 


可 以 使 用 以 下 两 种 方法 将 所 有 PATTERN 语 句 恢复 为 默认 属性 : 





lk [4 





=PATTE 

















GOPTIONS RESET 
PATTERN1]1; 





常用 的 选项 如 表 5.10 所 示 。 


在 PATTERN 语句 中 用 不 同 的 选项 来 规定 柱子 不 同 的 显示 属性 ， 


表 5.10 PATTERN 语句 常用 选项 


选 项 作 用 取 值 
COLOR= 或 C= | 设 定 柱子 的 颜色 red, green. yellow 
E- 表示 Empty， 无 花纹 
VALUE= 或 V= | 设 定 柱子 的 花纹 S- 表示 Solid， 用 颜色 填充 
sd- 其 中 s 表示 花纹 形状 ， 取 值 为 (R,L,X), d 表示 密度 ， 取 值 为 1 ~ 5 


IMAGE= 设 定 图 像 来 填充 柱子 "&locationmM\images\gears.gif" 


rr 





在 作 图 语句 中 可 以 使 用 选项 PATTERNID=， 设 定 根据 变量 的 不 同 值 依 次 调用 不 同 的 PATTERN 语 句 。 
" 如 果 指 定 了 颜色 和 花纹 ， 则 每 个 PATTERN 语句 设 置 的 柱 的 显示 属性 在 一 个 GCHART 过 程 中 只 使 用 一 次 。 


“ 如 果 只 指定 了 颜色 ， 则 系统 默认 柱 的 花纹 为 实心 填充 。 


. 如 果 只 指定 了 花纹 ， 没 有 颜色 ， 则 系统 将 依次 使 用 选项 COLORS= 中 指定 的 颜色 列表 或 者 系统 颜色 列表 中 的 颜色 ， 而 且 会 使 用 已 经 指定 的 花纹 。 系 统 优 先 调用 选项 COLORS= 中 已 经 指定 的 颜色 列表 。 
. 如 果 指 定 的 PATTERN 语 旬 没有 柱 的 数量 多 时 ， 则 系统 将 依次 使 用 选项 COLORS= 中 指定 的 颜色 列表 或 者 系统 颜色 列表 中 的 颜色 。 同 样 选 项 COLORS= 中 指定 的 颜色 列表 优先 。 


例 5.36: 将 例 5.35 中 的 每 个 柱子 用 不 同 的 颜色 表示 。 


示例 代码 如 下 : 


goptions colors=(verylightred verylightgreen verylightorange verylightpurple); 
patternl c=lightred; 
pattern2 c=lightgreen; 
pattern3 c=lightblue; 
pattern4 c=lightpurple; 
proc gchart data=ex.sales halfyear; 
title 'Sales Summary Across State'; 
vbar state/sumvar=amount 
type=sum 
outside=sum inside=pct 
width=10 patternid=midpoint ，; 
format amount dollarl10.2; 





















































run; 
quit; 
goptions reset=all; 





输出 内 容 如 图 5.44 所 示 。 


Sales Summary Across State 
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图 5.44 ” 例 5.36 打 印 输出 图 形 


在 上 述 程序 中 ， 使 用 GOPTIONS 语 句 和 选项 COLORS= 指 定 了 一 个 颜色 列表 ， 并 且 定 义 了 4 个 PATTERN 语句 。 在 GCHART 过 程 中 ，PATTERNID=MIDPOINT 表 示 根 据 作 图 变量 的 不 同 值 来 调用 
PATTERN 语句 ， 可 以 观察 到 ， 第 1 个 到 第 4 个 柱子 依次 使 用 PATTERN1 语 句 到 PATTERN4 语 句 中 设置 的 属性 。 此 外 ， 由 于 柱 的 数量 比 已 经 定义 的 PATTERN 语句 多 ， 对 于 剩 下 的 柱 ， 系 统 优先 依次 使 用 选项 
COLORS= 中 指定 的 颜色 ， 所 以 第 5~7 个 柱子 为 选项 COLORS= 中 指定 的 第 一 个 颜色 VERYLIGHTRED、 第 二 个 颜色 VERYLIGHTGREEN、 第 三 个 颜色 VERYLIGHTORANGE。 


5.4.2 ”制作 分 组 柱状 图 

在 上 面 的 柱状 图 中 ， 每 个 作 图 语句 中 都 只 使 用 了 一 个 分 类 变量 ， 即 作 图 变量 。 事 实 上 ， 可 以 在 作 图 语句 中 通过 选项 GROUP= 和 选项 SUBGROUP = 指定 其 他 的 分 类 变量 ， 从 而 制作 分 组 柱状 图 。 
1. 使 用 选项 GROUP= 和 SUBGROUP= 

这 两 个 选项 的 使 用 方法 如 下 : 


GROUP= 分 组 变量 
SUBGROUP= 子 分 组 变量 


使 用 选项 GROUP= 可 以 使 系统 让 分 组 变量 的 每 一 个 值 都 显示 为 一 组 柱状 图 ， 使 用 选项 SUBGROUP= 使 系统 先 按照 作 图 变量 作出 一 组 柱状 图 ， 表 按照 子 分 组 变量 的 不 同 值 将 柱状 图 分 为 上 下 (或 左右 ) 相 
去 的 部 分 。 例 如 : 





proc gchart data=ex.sales halfyear; 
title 'Sales Summary Across State'; 
vbar state/sumvar=amount 


group=type; 
vbar state/sumvar=amount 
subgroup=type; 
runy 
quit; 
goptions reset=all; 





输出 内 容 如 图 5.45 所 示 。 
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amount 总 和 mA /A amount 总 和 
半 D0D | S000 
000 


3000 


3000 

















22000 
2000 
1000 1000 
0 | 
0 | cA FL IL MA MD NG NY 
State state 
Type Type i Customerize Ba Simpe 





图 5.45 ”GCHART 过 程 中 使 用 选项 GROUP= 和 SUBGROUP= 


在 上 述 代码 中 ， 分 别 用 两 个 VBAR 语 句 制作 了 两 幅 图 。 第 一 幅 图 中 指定 了 GROUP=type，type 在 数据 集中 有 两 个 取 值 ， 分 别 为 Customerize 和 Simple， 系 统 根 据 type 的 每 一 个 值 分 别 制作 了 一 组 柱状 
图 。 第 二 幅 图 中 指定 了 SUBGROUP=type， 每 个 州 的 柱子 都 分 成 Customerize 和 Simple 两 个 部 分 ， 并 且 这 两 部 分 相连 (其 中 FL 没有 发 生 Simple 产 品 的 销售 ) ， 柱 子 的 上 面部 分 表示 type=Simple， 柱 子 的 
下 面部 分 表示 type=Customerize。 


需要 注意 的 是 ， 第 一 幅 图 中 所 有 的 柱子 都 显示 为 同一 个 颜色 ， 不 容易 辨认 不 同 的 组 别 。 这 时 可 以 在 作 图 语句 中 使 用 选项 PATTERNID= ， 来 设 定 根据 特定 变量 的 不 同 值 调用 不 同 的 PATTERN 语句 。 除 了 
上 节 介 绍 的 MIDPOINT， 选 项 PATTERNID= 还 可 以 有 多 种 不 同 的 取 值 ， 如 表 5.11 所 示 。 


表 5.11 选项 PATTERN= 的 不 同 取 值 与 作用 


取 值 作 用 
MIDPOINT 根据 作 图 变量 的 不 同 值 来 使 用 不 同 的 PATTERN 语 三 
BY 当 使 用 BY 变量 时 ， 根 据 BY 变量 的 不 同 值 来 使 用 不 同 的 PATTERN 语 乌 
GROUP 当 使 用 分 组 变量 时 ,根据 分 组 变量 的 不 同 值 来 使 用 不 同 的 PATTERN 语 扣 


当 使 用 子 分 组 变量 时 ， 根 据 子 分 组 变量 的 不 同 值 来 使 用 不 同 的 PATTERN 语句 ， 当 使 用 选项 


SUBGROUP . 
SUBGROUP 时 ， 系 统 默 认 PATTERNID=SUBGROUP 


在 上 述 程序 的 第 一 个 VBAR 语 句 中 添加 了 PATTERNID=GROUP， 可 以 使 得 柱状 图 按 分 组 变量 type 的 不 同 值 显示 不 同 的 颜色 。 代 码 如 下 : 


vbar state/sumvar=amount 
group=type patternid=group; 





2. 使 用 AXIS 语 句 设置 坐标 轴 属 性 


前 面 已 经 介绍 了 如 何 使 用 AXIS 语 句 设 置 坐 标 轴 属 性 ， 在 GCHART 过 程 中 同样 可 以 调用 AXIS 语 句 。 使 用 方法 如 下 : 























VBAR 作 图 变量 /GROUP= 分 组 变量 
RAX 

















S=AX Sm 
MAXIS=AXISnN 
GAXIS=AXISKk; 














图 5.46 用 图 示 的 方法 显示 了 选项 RAXIS=、 选 项 MAXIS= 和 选项 GAXIS= 的 作用 区 域 。 
例 5.37: 制作 分 组 柱状 图 ， 按 分 组 变量 的 不 同 值 使 用 不 同 的 颜色 ， 并 设置 坐标 轴 属 性 。 


示例 代码 如 下 : 





0 to 4000 by 1000) 

height=2 ) 

lor=blue number=2 height=0.5) 

color=blue height=2 'Total Amount'); 

Color=verylightblue height=1.5 'State Across America'); 

axis3 label=(color=lightblue height=2 ‘'Product Type'); 

proc gchart data=ex.sales halfyear; 
title 'Sales Summary Across State'; 
vbar state/sumvar=amount 

group=type patternid=group 

raxis=axisl 

maxis=axis2 

gaxis=axis3; 


axisl] order= 
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quit; 
goptions reset=all; 
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图 5.46 不同 选项 的 作用 区 域 
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图 5.47 例 5.37 打 印 输出 图 形 


输出 内 容 如 图 5.47 所 示 。 
在 上 述 代 码 中 ， 首 先 使 用 AXIS 语 句 分 别 设置 了 3 个 坐标 轴 属 性 ， 然 后 在 VBAR 语 句 中 ， 通 过 选项 RAXIS=、MAXIS= 和 GAXIS= 分 别 调用 了 AXIS 语 句 中 设置 的 属性 。 


当 使 用 选项 SUBGROUP= 时 ， 同 样 可 以 使 用 前 面 5.3.3 节 介绍 的 LEGEND 语 句 和 选项 LEGEND= 设 置 图 例 的 属性 ， 这 里 不 歼 述 。 
5.4.3 制作 饼 图 
使 用 GCHART 过 程 ， 除 了 可 以 制作 (三 维 ) 柱状 图 ， 还 可 以 制作 饼 图 。 使 用 GCHART 过 程 制作 饼 图 的 一 般 形式 如 下 : 


PROC GCHART DATA= 数 据 集 ， 
PIE 变量 1 < 变量 2 ...> </ 选 项 >， 
PIE3D 变量 3 < 变量 4 ..> </ 选项 >; 


























RUN 
QUIT; 





其 中 : 


" PIE 和 PIE3D 是 图 形 名 ， 分别 表示 制作 饼 图 和 三 维 饼 图 。 


、 变 量 2、 变 量 3 等 为 作 图 变量 。 作 图 变量 的 取 值 代表 着 饼 图 中 的 每 一 角 ， 黑 认 情 况 下 ， 饼 每 一 角 的 大 小 表示 作 图 变量 的 取 值 频数 。 和 制作 柱状 图 一 样 ， 作 图 变量 同样 可 以 是 字符 型 变量 和 数值 型 
变量 。 当 作 图 变量 为 数值 型 变量 时 ， 系 统 处 理 方法 和 制作 柱状 图 时 一 样 。 


例 5.38: 利用 数据 集 ex.sales_halfyear 制 作 饼 图 ， 显 示 不 同 产品 每 个 销售 人 员 的 销售 份额 。 


示例 代码 如 下 : 


proc gchart data=ex.sales halfyear; 

title 'Sales Percentage'; 

pie emp name/sumvar=amount type=pct 
group=type }; 











run; 
quit; 
goptions reset=all; 





输出 内 容 如 图 5.48 所 示 。 


Sales Percentage 






[CEsp_ass” 的 斌 图 mount” 的 总 和 ( 按 “Emp_Name”) 
Tepe= Cinnalizn Sales Percentage 
“amount” 的 总 和 ( 按 “Emp_Name”) 
Hannah Baker Type"Simole 
Emily Anderson 
Emily Anderson 3155 


315 







Jacob Adamns 


如 和 ev Clark Hannanh Bayer 
Andrew Clark 
504 


Joshua Carer 
4597 


Jacob Ad Michael Arnold 
66 679 


Michael Arnold 
2487 





Mat Ale Joshua | pe 


图 5.48” 例 5.38 打 印 输出 饼 图 


这 里 使 用 选项 SUMVAR= 指 定 了 分 析 变 量 ， 选 项 TYPE= 指 定 了 统计 量 为 PERCENT。 需 要 注意 的 是 ， 和 制作 柱状 图 不 一 样 ， 在 制作 饼 图 时 ， 选 项 TYPE= 只 有 3 个 统计 量 可 选 ， 分 别 为 FREQ (默认 ) 、 
PERCENT 和 SUM。 


此 外 ， 还 使 用 选项 GROUP = 指定 了 分 组 变量 type， 系 统 根据 type 变 量 的 两 个 取 值 分 别 制作 了 两 个 饼 图 。 
在 制作 柱状 图 时 所 介绍 的 和 作 图 相关 的 选项 在 这 里 同样 适用 。 读 者 如 果 有 兴趣 ， 可 以 参照 SAS 帮 助 文档 深入 学 习 。 


在 5.3 节 和 5.4 节 中 ， 介 绍 了 作 图 时 用 到 的 众多 选项 和 语句 ， 这 里 稍 作 总 结 。 昌 然 GLOPT 过 程 和 GCHART 过 程 所 展现 的 数据 不 一 样 ， 一 个 是 通过 散 点 图 和 连 线 图 展现 详细 数据 ， 一 个 是 通过 柱状 图 和 饼 图 
展现 汇总 数据 ， 但 是 图 形 的 大 部 分 元 素 是 通用 的 ， 例 如 ， 标 题 、 脚 注 、 坐 标 轴 、 图 例 等 ， 因 此 对 应 的 TITLE 语 句 、FOOTNOTE 语 句 、AXIS 语 句 和 LEGEND 语 句 在 GPLOT 过 程 和 GCHART 过 程 中 都 可 以 使 用 ， 
如 图 5.49 所 示 。 不 同 的 是 ， 在 GPLOT 过 程 中 ， 使 用 SYMBOL 语句 来 设置 散 点 及 连 线 的 属性 ; 在 GCHART 过 程 中 ， 使 用 PATTERN 语句 来 设置 柱 或 者 饼 的 属性 。 


读者 如 果 想 了 解 更 多 SAS/GRAPH 的 作 图 功能 ， 可 以 参考 SAS 帮 助 文 档 。 参 照 图 5.50 可 以 方便 地 定位 到 相关 的 帮助 文档 。 
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图 5.49 ”各 种 语句 的 作用 区 域 


EREE 





四 | 回 | ee 中 | 从 昌 | 国 | 塌 


目录 | 索引 | 搜索 | 结果 | 
日 (EE) SaS 系 技 文 档 
学 习 使 用 SAS 
在 旋 的 坚 作 环境 申 住 用 S&S 披 忻 
日 国 站 3 产品 
国庆 si 
司 2S 语言 元 去 
用 [a Base AS 
用 a AVACCESS 
用 a MAF 
梧 YASSIST 
本 国 入 SCONNECT 
司 | 辐 SS .4 Data Ouality Server: Reference 
本 让 | WAYELS 
司 [本 Getting Started mith SAS® Enterprise Miner™ 12,3 
田 加 | WETS 
用 Sh Fst 
梧 [a SMGenetics 12.3 User's Ouide 
机 | GIS 
日 于 ek 











Dverew of Sh/GRAPH Rd 
- 个 | Procedures 
Procedures by Categqory 

| | F 和 cedu res 








Global Statements 
Examples 

四 Graph Appearance 

用 [本 Graph-N-Go 

Sh YRAPH 9.d Reference 








图 5.50 ”SAS/GRAPH 帮 助 文档 位 置 


5.5 ” ODS 输出 传送 系统 


5.4 节 中 介绍 了 可 以 通过 更 改 系 统 中 的 设置 来 更 改 SAS 报 表 和 图 形 的 输出 窗口 ， 其 实 SAS 提 供 了 更 加 强大 的 Output Delivery System (输出 传送 系统 ，ODS) ， 使 得 用 户 可 以 更 加 方便 、 灵 活 地 指定 SAS 
系统 中 各 个 PROC 步 和 DATA 步 分 析 结 果 的 目标 输出 窗口 或 文件 地 址 。ODS 可 以 应 用 在 SAS 的 所 有 软件 中 。 


ODS 输 出 对 象 包含 2 个 部 分 ， 一 部 分 是 


是 数据 ， 另 一 部 分 是 模板 。PROC 步 和 DATA 步 提供 的 数据 部 分 和 系统 内 部 自 带 的 或 用 户 自 定义 的 模板 部 分 共同 组 成 了 ODS 的 输出 对 象 。ODS 包 含 两 种 输出 对 象 : 报 
表 输 出 对 象 和 图 形 输出 对 象 。 这 两 种 输出 对 象 都 可 以 被 传送 到 以 下 4 种 ODS 目 标 中 : 


PDF 
HTML 
* RTF 


* LISTING 


在 Windows 环 境 下 ， 从 SAs 9.3 开 始 ，SAS 上 默认 的 传送 目标 是 HTML，SAS 的 PROC 步 和 SAS/GRAPH 的 结果 都 是 通过 “结果 查看 器 ”窗口 中 的 HTML 文 件 来 显示 的 。 传 送 目标 HTML 一 直 处 于 打开 状态 ， 
直到 用 户 自行 提交 代码 关闭 ， 或 者 通过 系统 设置 关闭 。 图 5.51 显 示 了 ODS 的 处 理 流程 ， 数 据 部 分 和 模板 部 分 组 合 形成 了 输出 对 象 ，ODS 将 输出 对 象 传 送 到 了 ODS 目 标 ， 最 后 生成 ODS 输 出 文件 。 


DOCUMENT LISTING OUTPUT 


MARKUP PRINTER ODS 

日 标 

ODS 

DOCUMENT LISTING SAS MS Windows PS PCL PDF 办 中 
输出 输出 数据 和 集 打 ED 机 


SAS ”用 户 自 定义 
目标 文件 ”目标 文件 





SAS 格 式 .化 第 三 方 格 式 化 
日 标 日 标 


图 5.51 ODS 输 出 传送 系统 处 理 流程 


5.5.1 选择 或 剔除 输出 对 象 


先 来 运行 一 小 段 程序 : 





proc contents data=sashelp.class; 
run; 


默认 情况 下 ， 当 运行 完 PROC 步 后 ， 所 有 的 输出 都 被 传送 到 HTML 中 ， 并 最 终 通 过 “结果 查看 器 ”窗口 输出 ， 如 图 5.52 所 示 。 


训 芝 果 查看 到 一 SiS utpat 


CLONIENTS PROCEDURE 


茹 据 集 名 SASHELP.CLASS 

成 品类 型 DATA 

引 | 莒 V9 

创建 时 间 2013-06-20 00:43:26 

上 浆 修 改 时 间 | 2013-06-20 00:43:25 

保护 

数 握 集 演 型 

标签 学 生 癫 据 

数据 表示 污 | WINDOWS_64 

编码 eUc-en Simplified Chinese (EUC) 


引 敬 /主机 相 美 的 信息 
数据 集 更 面 夫 小 E5536 
数据 牺 页 数 
百 数据 更 
每 更 最 支 观 出 数 
首 苗 村 更 的 观测 吾 
数据 集 修 复数 
ExtendObsCountbter 
族 忻 者 CProgram Flles\Ss ASHoma\SASFoundatloms. nlsizhisashelpiclass.sas Tbdat 
创建 原 幸 9.0401B0 
创建 主机 XB4 7PRO 


按 字 母 排序 的 变量 和 届 性 列表 
江青 长 度 标签 
数值 8 | 年 诗 
| 8 身高 【 蓉 寸 } 
到 和 项 13 姓名 
享 符 4 性 别 
Weighi 葡 值 号 性 重 ( 磅 ) 





图 5.52 CONTENTS 过 程 输出 内 容 
这 时 我 们 会 发 现 ， 并 不 需要 输出 这 么 多 表格 ,我 们 感 兴趣 的 只 是 数据 集中 变量 的 信息 。 怎 么 才能 阻止 系统 输出 其 他 信息 呢 ? 
1. 使 用 输出 对 象 跟踪 功能 


为 了 对 输出 对 象 进行 选择 或 剔除 ， 首 先 必须 查询 PROC 步 的 输出 中 都 包含 了 哪些 对 象 。 要 查询 某 个 PROC 步 的 输出 对 象 ， 可 以 使 用 以 下 ODS TRACE 语 句 : 











ODS TRACE ON </ 选 项 >; 
ODS TRACE OFF; 


. ODS TRACE 语句 是 全 局 语句 ，ODS TRACE ON 表示 打开 输出 对 象 跟踪 功能 ， 在 跟踪 功能 打开 后 ， 运 行 的 每 个 PROC 步 的 输出 对 象 都 将 被 写 入 日 志 中 。 
:ODS TRACE OFF 表 示 关 闭 输 出 对 象 跟踪 功能 。 


:. ODS TRACE 语句 的 选项 包括 LABEL 和 LISTING。 选 项 LABEL 表 示 要 求 系统 在 日 志 中 提供 每 个 输出 对 象 的 路 径 标签 。 选 项 LISTING 表 示 要 求 系统 将 每 个 输出 对 象 的 跟踪 结果 显示 在 OUTPUT 窗 口 的 每 


个 输出 对 象 前 面 。 只 有 当 传 送 目标 LISTING 打 开 时 ， 选 项 LISTING 才 有 效 。 
例 5.39: 打开 跟踪 功能 重新 运行 CONTENTS 过 程 。 


示例 代码 如 下 : 


ods trace on/ label; 

proc contents data=sashelp.class; 
run; 
ods trace off; 

















日 志 如 图 5.53 所 示 。 


1569 ods trace offs 

1570 ods trace on 1abel ; 

1571 proc contents data=sashelp.classs 
1572 Funs 


Dutput Added: 


| 时 

引擎 /主机 信息  . 

Base .Contents.EngineHost 
FE: Contents.Dataset .EngijneHost 


标签 8 镍 征 : “Contents PROCEDURE" ."SASHELP .CLASS" -5 引擎 /主机 1 


Dutput Added: 
名 入: Uariables 
rr 变量 


避 委 : Base.Contents -Uariables 
全: Contents-Dataset Uariables 
FE 于 于 


HOTE: “PROCEDURE CONTENTS” 所 用 时 间 【总 处 理 时 间 ) : 
实际 时 间 9.04 种 
CPU 时 | Be 和 


1573 ods trace off; 


图 5.53 CONTENTS 过 程 运 行 日 志 
跟踪 功能 为 每 个 输出 对 象 提供 的 跟踪 结果 包括 以 下 内 容 。 
“名称: 表示 输出 对 象 的 名 称 。 
“ 标签 : 表示 输出 对 象 的 名 称 标签 。 
` 模板 : ODS 用 于 显示 输出 对 象 的 模板 信息 。 
` 路 径 :; 输出 对 象 的 路 径 。 
. 标签 路 径 : 输出 对 象 的 路 径 标 签 。 当 使 用 选项 LABEL 时 ， 在 日 志 中 才 会 显示 路 径 标 签 。 


从 结果 窗口 也 可 以 看 到 PROC 步 对 应 的 输出 对 象 ， 如 图 5.54 所 示 。 


名 么 : Attributes 

[a / 

模 想 : Base-Content .Attributes 

只 人 Contents -mataSet Attributes 

标签 路 径 : “Contents PROCEDURE' ."SASHELP .CLASS' .属性 ， 


‘Lontents PROCEDURE" ."SASHELP .CLASS" ." 寂 量 ' 


主 自 ， 


[= 


] | 芍 / 主 机 信息 
| 变 鲁 





图 5.54 CONTENTS 过 程 “结果 ”窗口 


2. 选 择 和 剔除 输出 对 象 


使 用 ODS SELECT 语句 和 ODS EXCLUDE 语 句 ， 可 以 针对 各 个 ODS 目标 更 改选 择 列 表 或 者 剔除 列表 。 使 用 语法 如 下 : 





ODS <ODS 目 标 > SELECT 输出 对 象 1 < 输出 对 象 2 .> |ALL |NONE; 
ODS “<ODS 目 标 > EXCLUDE 输出 对 象 1 < 输出 对 象 2 ...> |ALL |NONE; 




















其 中 : 
. ODS 目标 为 指定 具体 的 ODS 目标 ， 可 以 是 HTML、LISTING、OUTPUT、RTF、PDF 或 者 PRINTER。 只 有 当 ODS 目 标 处 于 打开 状态 时 ， 才 可 以 指定 具体 的 ODS 目标 。 默 认 情况 下 ， 由 系统 修改 
OVERAIL 的 选择 列表 或 者 别 除 列表 。 
.ALL 表示 选择 或 日 除 所 有 输出 对 象 。 
.NONE 表示 不 选择 或 剔除 任何 输出 对 象 。 


输出 对 象 可 以 是 路 径 或 者 路 径 标签 ， 也 可 以 是 部 分 路 径 或 者 部 分 路 径 标签 ， 如 图 5.55 所 示 。 


Dutput Added: 


Uarlables 

变量 

Base .Contents.Variables 
Eontents.Dataset .Varlables 
‘Gontents PROGEDURE" ." SASHELP .GLASS 


= 
受 里 





图 5.55 输出 对 象 


主要 有 以 下 几 种 。 


路径: 如 Contents.Datasets.Vatiables。 

部 分 路 径 : 指 的 是 路 径 中 从 某 一 个 〈.) 号 开始 到 路 径 结束 的 部 分 ， 如 Datasets.Vatiables 或 Vatiables。 
. 标签 : 标签 必须 用 引号 括 起 来 ， 如 “变量 
“ 标签 路 径 : 格式 为 ' 过 程 步 名 称 " 逻 辑 库 . 数 据 集 名 称 '' 变 量 '， 例 如 ，'Contents PROCEDURE''SASHELP.CLASS'.' 变 量 '。 
` 部 分 标签 路 径 : 指 的 是 标签 路 径 中 从 某 一 〈.) 号 开始 到 标签 路 径 结 束 的 部 分 ， 如 'SASHELP.CLASS'.' 变 量 '。 
:路径 和 标签 的 混合 形式 : 将 路 径 和 标签 混合 起 来 使 用 ,例如 ，Contents.Datasets.' 变 量 '。 

默认 情况 下 ， 在 每 一 个 DATA 步 或 者 PROC 步 结束 时 ，ODS 都 会 清空 输出 对 象 选择 列表 和 吻 除 列表 。 


加 注意 ”在 使 用 ODS 时 ， 强 烈 建 议 在 每 一 个 PROC 步 和 DATA 步 结束 时 都 使 用 RUN 语 句 ， 在 SQL 过 程 、DATASETS 过 程 和 SAS/GRAPH 中 的 PROC 步 结束 时 都 使 用 QUIT 语 句 ， 以 避免 因 界 限 不 明 发 生 错 


如 果 要 使 得 某 个 输出 对 象 在 DATA 步 或 PROC 步 结束 时 ， 继 续 留 在 选择 列表 或 者 剔除 列表 中 ， 可 以 在 这 个 输出 对 象 的 后 面 紧 跟 着 使 用 选项 PERSIST， 选 项 PERslST 必 须 用 括号 括 起 来 。 使 用 方法 如 下 : 





输出 对 象 (PERSIST) 











需要 注意 的 是 ， 选 项 PERslST 可 以 使 得 紧 贴 其 前 面 的 输出 对 象 一 直 保 留 在 选择 列表 或 者 剔除 列表 中 ， 直 到 使 用 ODS SELECT 语句 指定 新 的 列表 为 止 。 
例 5.40: 针对 不 同 的 ODS 目标 选择 不 同 的 输出 对 象 列表 。 


示例 代码 如 下 : 


ods listing; 

/*modify OVERALL selection list*/ 
ods select moments; 
/*modify HIML selection list*/ 

ods html select Quantiles; 

proc univariate data=sashelp.prdsale; 


var actual; 





























run; 
ods listing close; 


\ 一 /一 


在 上 述 程序 中 ， 使 用 了 UNIVARIATE 过 程 ， 用 来 计算 和 输出 数据 描述 性 统计 量 的 值 (第 9 章 会 详细 介绍 该 PROC 步 ) 。 由 于 默认 情况 下 ， 系 统 仅 将 PROC 步 的 运行 结果 传送 到 HTML 中 ， 因 此 这 里 先 使 用 
ODS LISTING 语 句 把 传送 目标 LISTING 打 开 ， 随 后 修改 了 OVERALL 的 选择 列表 和 HTML 的 选择 列表 ， 最 后 使 用 ODS LISTING CLOSE 语句 关闭 了 传送 目标 LISTING。 图 5.56 和 图 5.57 分 别 是 “结果 查看 器 ” 


口 和 OUTPUT 窗 口 的 输出 结果 。 











SAS 系 红 
UNIVARIATE PROCEDURE 
计量 * ACTUAL (实际 钳 焦 ) 




















分 位 数 (定义 5) 
分 位 数 估计 
100% 最 大 值 1000.0 
99% | 991.0 
ek G3U.5 
90% 900.0 
75% Q3 756.5 
50% 中 位 数 ” 503.0 
25% Q1 261.0 
10% 111.0 
5% 59.0 
1% 14.0 
0% 最 小 值 3.0 


图 5.56 ”结果 查看 器 窗口 


图 输出 - 《无 标题 》 


SAS 系 纺 


UNIUARIATE PROCEDURE 
区 量 : 。 ACTUAL 《实际 请 信 ) 


14408 - 呈 二 有 1 上 4 人 0 

S87 .178472 \ 730337 

287 . 931366 过 82386.9709 
-6.6271668 : -1.2202552 

和 yng966055 ’ + 119554951 
56 .593748 / ff.56393907 





图 5.57 OUTPUT 窗 口 输出 内 容 
当 pPROC 步 运行 产生 一 个 输出 对 象 时 ，ODS 会 根据 各 个 ODS 目标 的 给 出 对 象 列表 和 OVERALL 的 输出 对 象 列表 确定 是 否 将 这 个 输出 对 象 传送 到 具体 的 ODS 目标 中 。 处理 谣 辐 如 下 
对 于 某 个 ODS 目标 ，ODS 首 先 检 查 这 个 ODS 目标 是 否 存 在 输出 对 象 列 表 ， 如 果 有 ， 则 根据 列表 确定 是 否 将 该 输出 对 象 传送 到 这 个 ODS 目标 中 。 
. 对 于 某 个 ODS 目标 ， 如 果 不 存在 输出 列表 ， 则 根据 OVERALL 的 输出 列表 确定 是 否 将 该 输出 对 象 传送 到 这 个 ODS 目标 中 。 
根据 这 一 原则 ， 上 述 程序 的 处 理 步骤 如 下 : 
1) HTML 的 输出 对 象 列表 中 仅 有 Quantiles 一 个 输出 对 象 ，OVERALL 的 输出 对 象 列表 中 仅 有 Moments。 


2) 在 UNVARIATE 过 程 运行 中 产生 输出 对 象 Moments 时 ， 对 于 HTML，ODS 检 查 HTML 的 输出 对 象 列表 ， 由 于 这 里 HTML 的 输出 列表 中 仅 包 含 Quantiles， 因 此 输出 对 象 Moments 不 传送 到 HTML 中 ; 
对 于 LISTING，ODS 先 检查 LISTING 的 输出 列表 ， 由 于 LISTING 的 输出 列表 不 存在 ，ODS 会 继续 检查 OVERALL 的 输出 列表 ， 并 且 OVERALL 的 输出 列表 中 包含 了 Moments， 确 定 传 送 到 LISTING 中 ， 并 最 终 
通过 OUTPUT 窗 口 输出 。 


3) 在 产生 输出 对 象 Quantiles 时 ， 对 于 HTML，ODs 检 查 HTML 的 输出 对 象 列 表 ， 由 于 这 里 HTML 的 输出 列表 中 包含 Quantiles， 因 此 输出 对 象 Quantiles 传 送 到 HTML 中 ， 并 最 终 通过 HTML 窗 口 输出 ， 
对 于 LISTING， 由 于 LISTING 的 输出 列表 不 存在 ，ODS 继 续 检查 OVERALL 的 输出 列表 ， 由 于 OVERALL 的 输出 列表 中 仪 包 含 Moments， 因 此 输出 对 象 Quantiles 不 传送 到 LISTING 中 。 处 理 完 毕 。 


所 以 ， 在 上 面 的 例子 中 ， 我 们 最 终 看 到 HTML 窗 口中 输出 了 Quantiles，OUTPUT 窗 口中 输出 了 Moments。 
表 5.12 列 出 了 默认 情况 下 各 个 ODS 目标 的 输出 对 象 列表 。 


表 5.12 ”默认 情况 下 各 个 ODS 目 标的 输出 对 象 列表 


3. 在 日 志 中 中 显示 选择 或 者 剔除 对 象 列 表 


想 要 查看 已 经 设 定 的 关于 输出 对 象 的 选择 ， 可 以 使 用 以 下 语句 : 
ODS <ODS 目 标 > SHOW; 


ODS 目 标 可 以 是 HTML、LISTING、OUTPUT、RTF、PDF 或 者 PRINTER。 当 没有 指明 ODS 目 标 时 ， 日志 中 显示 OVERALL 的 选择 或 者 别 除 目标 列表 。 


5.5.2 ”创建 多 种 格式 输出 文件 


在 通过 ODS SELECT 语句 或 者 ODS EXCLUDE 语 句 选择 了 输出 对 象 后 ， 可 以 把 这 些 输出 对 象 传送 到 ODS 目标 ， 并 且 输 出 到 多 种 格式 的 输出 文件 中 ， 包 括 RTF 文 件 、PDF 文 件 、HTML 文 件 、EXCEL 文 件 和 
SAS 数 据 集 。 


1. 创 建 RTF 文 件 


RTF (Rich Text Format) 文件 包含 了 格式 属性 和 字符 属性 的 信息 ， 可 以 通过 很 多 文字 处 理 软 件 进 行 读 写 ， 这 也 是 一 种 广泛 使 用 的 文件 格式 ， 以 .rtf 结 尾 。 在 SAS 中 ， 可 以 使 用 ODS RTF 语 句 来 创建 RTF 
文件 ， 使 用 方法 如 下 : 


ODS RTF FILE=' 文 件 路 径 / 文 件 名 .RTF' < 选项 > ，; 
SAS 代 码 ， 
ODS RTF CLOSE; 


说 明 : 
` 第 一 行 ODS RIF 语句 将 传送 目标 RTF 打 开 ， 并 在 FILE= 后 面 指定 输出 文件 存储 路 径 和 文件 名 称 。 
" 最 后 一 行 ODS RTF 语 句 关闭 传送 目标 RTF。 

例 5.41: 将 下 列 PROC 步 生成 的 报表 存储 到 .RTF 文 件 中 。 


示例 代码 如 下 : 


ods html close; 
ods rtf file="C:\Users\vdmrace\Desktop\data\prdsale.rtf" style=science; 
ods rtf select moments quantiles; 
proc univariate data=sashelp.prdsale; 

var actual; 
ry 
proc gchart data=sashelp.prdsale; 

hbar country /group=prodtype sumvar=actual 

patternid=group; 





run; 
quit; 

ods rtf close; 
ods html; 


在 ODS RFT 语 句 中 使 用 了 选项 STYLE= 指 定 该 文件 存储 成 SCIENCE 风 格 。PROC 步 后 面 的 ODS RFT CLOSE 语 句 将 传送 目标 RTF 关 闭 。RTF 文 件 内 容 如 图 5.58 所 示 。 
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SAS 系统 


UNIVARIATE PROCEDURE 
变量 : ”ACTUAL (实际 销售 ) 





图 5.58 ” 例 5.40 生 成 的 RIF 文件 


加 注意 ”由 于 系统 默认 传送 目标 HTML 一 直 处 于 打开 状态 ， 因 此 在 不 需要 使 用 HTML 输出 时 ， 为 了 节省 资源 ， 可 以 将 HTML 关 闭 。 


2. 创 建 PDF 文件 


PDF (Portable Document Format) 是 由 Adobe Acrobat 公 司 独 立 开 发 的 一 种 文件 格式 ， 使 用 广泛 ， 可 包含 书签 和 链接 ， 可 以 通过 Acrobat 阅 读 器 浏览 。 在 SAs 中 ， 可 以 使 用 ODS PDF 语句 来 创建 
PDF 文件 ， 使 用 方法 如 下 : 


ODS PDF FILE=' 文 件 路 径 / 文 件 名 .PDF' < 选项 > ; 
SAS 代 码 ， 


ODS PDF CLOSE; 








其 中 : 

. ODS PDF 语句 的 选项 有 NOTOC、STARTPAGE=、UNIFORM。 

. 用 户 可 以 使 用 系统 选项 BOTITOMMARGIN=、LEFTMARGIN=、ORTIENTATION=、RIGHTMARGIN=、TOPMARGIN= 来 进行 页 面 设置 。 读 者 车 有 兴趣 可 以 阅读 SAS 帮 助 文档 。 
例 5.42: 将 下 列 PROC 步 生成 的 报表 存储 到 .PDF 文件 中 。 


示例 代码 如 下 : 





proc sort data=sashelp.prdsale out=prdsale; 
by country; 
工 UL7 
ods html close; 
ods pdf file="C:\Users\vdmrace\Desktop\data\prdsale.pdf"; 
proc univariate data=prdsale; 
by country; 
var actual; 
run’; 
ods pdf close; 
ods html; 























在 UNIVARIATE 过 程 中 使 用 了 BY 语句 ， 所 以 在 UNVARIATE 过 程 之 前 需要 将 数据 集 按照 BY 变量 进行 排序 。 生 成 的 PDF 文件 如 图 5.59 所 示 。 


3. 创 建 增强 型 HTML 文 件 


通常 情况 下 ， 如 果 用 户 没有 主动 通过 代码 或 者 系统 设置 天 闭 传 送 目标 HTML，HTML 会 一 直 处 于 打开 状态 。 使 用 HTML 语 句 可 以 自己 定义 HTML 输 出 文件 的 框架 、 内 容 、 主 体 ， 其 使 用 语法 如 下 : 


ODS HTML <PATH=:' 文 件 路 径 ' (URL=NONE ) > 
0 HTML, 
<FRAME 一 ' FRAME 文 件 名 .HTML'> 


























<CONTENTS='CONTENTS 文 件 名 .HTML' >; 
SAS 代码 ; 
ODS HTMI, CLOSE; 








其 中 : 


. 选项 PATH= 指 明 存 放 文 件 的 目录 ， 其 后 的 子 选项 (URL=NONE) 表示 当 生 成 的 HTML 文 件 中 包含 链接 时 ,使 用 相对 路 径 。 当 需要 在 其 他 服务 器 上 使 用 在 菜 侣 服务 器 或 操作 环境 中 生成 的 HTML 文 件 
时 ， 必 须 使 用 这 一 选项 。 


` 选项 BODY= 指 明 HTML 输 出 中 包含 主体 的 文件 名 称 。 这 里 也 可 以 使 用 选项 FILE= 来 代替 BODY=。 如 果 没 有 使 用 选项 PATH= ， 在 选项 FILE= 或 者 BODY= 指 定 的 文件 名 中 也 可 以 加 入 路 径 信 息 
“ 选项 FRAME= 指 定 HIML 输 出 中 的 包含 框架 的 文件 名 称 。 


选项 CONTENTS= 指 定 HIML 输 出 中 的 包含 目 录 的 文件 名 称 。 
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图 5.59 ” 例 5.41 生 成 的 PDF 文件 


例 5.43: 将 下 列 PROC 步 生成 的 报表 存储 到 .HTML 文 件 中 ， 同 时 保存 文件 的 框架 和 目录 信息 。 


示例 代码 如 下 : 





proc sort data=sashelp.prdsale out=work.prdsale; 


by country; 





run; 

ods html path='C:\Users\vdmrace\Desk 
body="'prdsalebody .html'" 

frame="'prdsaleframe .html' 





top\data' 





contents='prdsalecontents.hit 








proc tabulate data=work.prdsale; 
class region division prodtype; 
var actual; keyword all sum; 
keylabel all='Total'; 











tm] 


table (region allLl)x(dqivision all), 











(prodtype 











run; 


ods select ExtremeObs Quantiles Moments; 





proc univariate data=work.prdsale; 
by Country; 
var actual; 

run; 

ods html close; 





all)* (actual*f=dollar10.) / misstext=[label='Missing'] box= 
[label='Region by Division and Type']; 





prdsaleframe.html 文 件 如 图 5.60 所 示 。 左 边 是 HTML 目 录 ， 右 边 是 HTML 主 体 文 件 ，HTML 框 架 将 目录 和 主体 文件 结合 起 来 显示 。 
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把 委 公 | 家 具 
Reglon by Division and Type 立 际 销售 去 际 销 售 误 际 销售 
2. Univariate 过 程 Sum Sum Sum 
ACTUAL 地 区 分 类 
i 东部 教育 $115,104 | $73,901 | $189,005 
` 极 值 观测 消费 $108.686 | $72.570 | $181,256 
Total $223,790 | $146.471 | $370,261 
- ACTUAL 西部 分 类 
有: 教育 $110,902 | $67.945 | $178,847 
a 消费 $105,020 | $76,209 | $181,229 
Sa Total $215,922 | $144,154 | $360,076 
- ACTUAL Total 分 类 
教育 $276,006 | $141.846 | $367.857 
- 报 值 到 测 消费 $213,706 | $148,779 | $362,485 
Total $439,712 | $290,625 | $730,337 
SAS 系统 


UNIVARIATE PROCEDURE 
变量 * ACTUAL (实际 销售 ) 


国家 = 德国 


图 5.60 例 5.42 生 成 的 HTML 文件 
需要 注意 的 是 ， 当 传送 目标 HTML 打 开 后 ， 如 果 使 用 选项 BODY= 或 者 FILE= 指 定 了 文件 主体 ， 其 后 所 有 的 输出 报表 和 图 形 都 将 被 写 入 这 个 文件 主体 中 ， 直 到 遇 到 以 下 3 种 情况 中 的 一 种 为 止 。 
ODS HTML CLOSE 语句 ，HTML 目 标 被 关闭 。 
. 新 的 ODS HTMIL 语句 ， 并 且 包 含 选 项 BODY= 或 者 FILE=。 
“ 选项 NEWFILE= 将 输出 指定 到 其 他 文件 。 


选项 NEWFILE= 的 取 值 可 以 为 NONE (默认 设置 ， 仪 生成 一 个 文件 ) 、PROC (表示 每 个 PROC 步 生成 一 个 文件 ) 、OUTPUT (表示 每 个 输出 对 象 生 成 一 个 文件 ) 、BYGROUP (每 个 BY 组 合生 成 一 个 
文件 ) 等 。 当 使 用 选项 NEWFILE= 时 ， 如 果 生 成 新 的 文件 ， 新 文件 的 名 字 后 面 会 从 1 开始 依次 加 上 序号 (第 一 个 文件 不 加 序号 ) 。 选 项 NEWFILE= 在 RTF 目 标 中 同样 可 以 使 用 。 


例 5.44: 将 例 5.42 中 不 同 PROC 步 生成 的 报表 存储 到 不 同 的 HTML 文 件 中 。 


分 析 : 只 需 在 ODS HTML 语 句 中 加 入 选项 NEWFILE=PROC 即 可 。 代 码 如 下 : 


ods html path='C:\Users\vdmrace\Desktop\data' 
body="'prdsalebody.html'" 

frame="'prdsaleframe .htm] 

contents='prdsalecontents.html' newfile=proc; 

















这 里 生成 了 两 个 HTML 主 体 文件 ， 一 个 是 prdsalebody.html， 包 含 了 TABULATE 过 程 的 输出 对 象 ， 另 一 个 是 prdsalebody1.html， 包 含 了 UNIVARIATE 过 程 的 所 有 输出 对 象 。 如 图 5.61 所 示 。 
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$115.104 $73.901 | $189.005 
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S213,706 S5148,779 | 5362 485 
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图 5.61 例 5.43 生 成 的 多 个 HTML 文 件 
4. 创 建 SAS 数 据 集 
除了 可 以 生成 第 三 方 格式 的 文件 以 外 ， 用 ODS OUTPUT 语 句 还 可 以 为 许多 PROC 步 的 输出 对 象 建立 SAs 数 据 集 ， 它 可 以 包含 输出 中 的 每 个 统计 量 ， 其 基本 形式 如 下 : 


ODS OUTPUT 输出 对 象 1= 数 据 集 1 < 输出 对 象 2= 数 据 集 2 .…>:; 





其 中 : 
` 输出 对 象 可 以 是 路 径 或 者 路 径 标签 ， 也 可 以 是 部 分 路 径 或 者 部 分 路 径 标 签 ， 具 体 规 则 和 ODS SELECT 语句 中 一 样 。 
ODS OUTPUT 语 和 句 中 可 以 设置 输出 多 个 数据 集 。 

关闭 传送 目标 OUTPUT 的 语法 如 下 : 

例 5.45: 将 下 列 PROC 步 生成 的 报表 存储 在 SAS 数 据 集中 。 


示例 代码 如 下 : 








ods output ExtremeObs=work.ExtremeObs Moments=work.Moments } 
proc univariate data=sashelp.prdsale; 
var actual predict; 
run’ 
ods output close; 








在 上 面 的 代码 中 ， 只 指定 了 部 分 路 径 ， 如 果 打 开 输 出 对 象 查询 跟踪 功能 ， 我 们 会 发 现 部 分 路 径 为 ExtremeObs 的 输出 对 象 有 两 个 ， 分 别 为 Univariate.ACTUAL.ExtremeObs 和 和 
Univariate.PREDICT.ExtremeObs， 但 是 最 后 只 生成 了 一 个 数据 集 work.ExtremeObs， 系 统 会 将 具有 相同 部 分 路 径 的 不 同 输出 对 象 壬 加 起 来 ， 输 送 到 同一 个 数据 集中 。 数 据 集 work.Monments 也 是 同样 
的 。 数 据 集 内 容 如 图 5.62 所 示 。 
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图 5.62 例 5.44 生 成 的 数据 集 的 内 容 


这 是 由 于 在 ODS OUTPUT 语 句 中 指定 输出 对 象 时 只 使 用 了 部 分 路 径 。 然 而 有 时 将 不 同 的 输出 对 象 输出 到 同一 数据 集中 会 带 来 不 必要 的 麻烦 ， 这 时 可 以 在 输出 对 象 后 面 使 用 选项 MATCH_ALL， 阻 止 将 不 
同 输出 对 象 输出 到 同一 数据 集中 。 使 用 这 一 选项 ， 可 以 使 具有 相同 部 分 路 径 名 的 数据 集 分 别 输出 到 不 同 的 数据 集中 ， 数 据 集 的 名 字 后 面 会 从 1 开始 依次 加 上 序号 (第 一 个 数据 集 不 加 序号 ) 。 如 果 将 选项 
MATCH_ALL 更 改 成 MATCH_ALL= 宏 变量 名 ， 则 各 个 数据 集 的 名 字 都 将 被 存储 到 指定 的 宏 变 量 中 (第 7 章 中 会 详细 介绍 SAS 宏 变量 的 使 用 ) 。 


例 5.46: 在 例 5.44 的 基础 上 使 用 选项 MATCH_ALL， 使 得 不 同 输出 对 象 输出 到 不 同 数据 集中 。 


示例 代码 如 下 : 





ods output ExtremeObs (match all=esets) =work.ExtremeObs Moments (match all=msets) = 
work .Moments; 和 
proc univariate data=sashelp.prdsale; 
var actual predict; 
runy 
ods output close; 
sput esets=&esets. 











Msets=&msets.;} 








这 里 生成 了 4 个 数据 集 ， 如 图 5.63 所 示 。 


SS 英 音 巨 理 埋 


4Extr emeobs 


Extremeobsl 





图 5.63 ” 例 5.45 生 成 的 数据 集 


在 日 志 中 输出 了 两 个 宏 变 量 esets 和 msets 的 取 值 ， 如 图 5.64 所 示 。 


S15 %put esets=&esets. Msets=fmsets.: 


esets=WORK .ENTREMEOBS WORK.EMTREMEOBST1 Msets=WORK .MOMENTS WORK .MOMENTST1 





图 5.64 ” 例 5.45 运 行 产 生 的 部 分 日 志 
加 注意 “PRINT 过 程 和 REPORT 过 程 不 支持 ODS OUTPUT 语 和 句 。 


上 面 介绍 了 ODS 的 一 些 最 基本 的 功能 。 此 外 ，ODS 还 提供 了 很 多 其 他 功能 ， 如 用 户 可 以 修改 系统 提供 的 模板 ， 甚 至 可 以 自己 定制 模板 。 有 兴趣 的 读者 可 以 阅读 SAS 帮 助 文档 ， 了 解 更 多 关于 SAS ODS 的 


poe] 


内 容 。 


5.6 本章 小 结 


在 SAs 中 对 数据 进行 汇总 与 展现 主要 有 两 种 方式 : 一 种 是 列表 ， 一 种 是 图 形 。 本 章 首先 介绍 了 如 何 运 用 PRINT 过 程 和 TABULATE 过 程 制作 各 种 类 型 的 报表 和 汇总 报表 ; 然后 介绍 了 如 何 运 用 GPLOT 过 程 
和 GCHART 过 程 制作 散 点 图 、 连 线 图 、 气 泡 图 、 柱 状 图 等 多 种 图 形 ; 最 后 简要 介绍 了 OD3 输 出 传送 系统 ， 包 括 如 何 选择 或 剔除 输出 对 象 ， 创 建 多 种 格式 的 输出 文件 等 。 


第 6 章 ”SAS SQL 语言 


结构 化 查询 语言 SQL (Structured Query Language) 是 关系 型 数据 库 管 理 系 统 的 标准 语言 。 绝 大 多 数 主流 的 关系 型 数据 库 管 理 系统 ， 如 Oracle、Microsoft SQL Server 和 DB2 等 都 使 用 了 SQL 语言 ， 
并 在 此 基础 上 各 自 对 标准 的 SQL 进行 了 扩展 。SAs 系 统 也 支持 SQL 语言 。 本 章 将 介绍 如 何 使 用 SAs SQL 对 数据 集 进 行 检索 、 加 工 以 及 管理 。 要 说 明 的 是 ， 这 里 所 提 到 的 SQL 语言 均 指 SAs SQL 语言 。 


6.1 SQL 语言 概述 


在 SAS 中 使 用 SQL 时 ， 在 表达 同一 个 意思 或 表述 同一 种 形式 时 ， 其 中 某 些 术语 与 SAS 术 语 略 有 不 同 ， 如 表 6.1 所 示 。 


表 6.1 SAS 术 语 与 5QL 术 语 的 区 别 


SAS 术语 SQL 术语 
SAS 数据 集 下 
观测 | 行 
显 量 下 | 


SQL 语言 在 SAs 中 是 通过 PROC SQL 来 实现 的 。 使 用 PROC SQL， 用 户 可 以 实现 以 下 功能 : 
. 制作 报表 与 表 。 


. 生成 一 些 统计 性 数据 ， 如 均值 、 求 和 等 。 


“ 合并 表 。 

. 从 其 他 表 中 抽取 部 分 数据 ， 如 部 分 行 和 列 。 

. 更 新 表 的 行 。 

. 更 新 表 的 列 ， 如 新 增 或 者 删 挤 某 个 列 等 。 

: 从 其 他 的 数据 管理 系统 (DBMS) 中 更 新 或 者 抽取 数据 。 


总 之 ，SQL 语 言 是 一 个 强大 的 数据 处 理工 具 。 需 要 指出 的 是 ，SQL 语 言 不 是 DATA 步 的 蔡 代 ， 而 是 DATA 步 的 一 种 补充 。 从 理论 上 说 ， 任 何 用 SQL 实现 的 任务 都 可 以 用 DATA 步 来 实现 ， 但 是 ，SQL 语 言 更 


加 直观 、 简 洁 ， 甚 至 在 某 些 情形 下 ，SQL 可 以 实现 需要 多 个 DATA 步 才能 实现 的 任务 。 下 面 列 举 几 个 使 用 SQL 比较 方便 的 情形 : 
* 合并 表 时 不 需要 事先 对 表 进 行 排 序 。 
“ 生成 宏 变 量 ， 尤 其 是 生成 多 个 宏 变 量 〈 有 关 宏 变量 的 内 容 会 在 第 7 章 讲述 ) 。 
对 多 个 表 进 行 匹配 。 
“ 生成 一 些 统 计量 ， 如 平均 数 、 求 和 。 


" 生成 计数 ， 如 计算 表 中 有 多 少 列 的 值 非 空 。 


6.2 ”使 用 SQL 检索 数据 


使 用 SQL 可 以 很 方便 地 从 表 中 检索 数据 ， 如 选择 符合 条 件 的 行 与 列 ， 根 据 已 有 的 列 生 成 新 的 列 ， 对 数据 分 组 统计 信息 、 排 序 等 。 用 户 提交 一 段 用 SQL 编写 的 检索 程序 ， 经 As 执行 后 ，PROC SQL 自动 以 
报表 的 形式 在 OUTPUT 中 显示 结果 。 需 要 指出 的 是 ， 除 了 本 章 后 面 提 到 的 使 用 SQL 对 表 进 行 管理 的 操作 外 ， 其 他 使 用 SQL 对 表 进 行 的 操作 不 会 影响 原 表 。 因 此 ， 使 用 SQL 既 可 以 查看 操作 的 结果 又 可 以 避免 


生成 中 间 数 据 集 。 当 然 ，SQL 也 人 允许 用 户 将 当前 OUTPUT 窗 口中 的 报表 创建 成 一 个 SAS 数 据 集 。 


6.2.1 SQL 的 基本 结构 


在 SAs 编 程 语 法 中 ， 一 个 语句 是 一 段 触发 SAs 系 统 执行 某 些 操作 或 者 将 某 种 信息 传递 给 系统 ， 并 以 分 号 结束 的 代码 。 在 SQL 中 ， 一 个 语句 可 能 包含 若干 个 从 句 ， 从 句 间 以 空格 隔 开 。 例 如 ， 在 SQL 


中 ，SELECT 表 示 从 指定 的 表 中 选 出 某 些 列 ，FROM 指 定 了 待 操作 的 表格 ， 二 者 为 相互 独立 的 从 句 (SAS 不 单独 执行 它们 ) ， 两 者 结合 在 一 起 则 构成 了 一 个 可 执行 的 语句 。 
SQL 的 基本 结构 如 下 : 


PROC SOL; 
SELECT 表 1. 列 1, 表 1. 列 2，.. 

FROM 表 1 

<WHERE> 

<GROUP BY> 

<ORDER BY>; 

QUIT; 






































其 中 : 
. SELECT 从 名 选择 要 查看 的 列 ， 不 同 列 之 间 用 运 号 隔 开 。 
` FROM 从 各 指定 了 操作 的 表 。 
` WHERE 从 名 选择 满足 条 件 的 行 。 
. WHERE、GROUP BY 和 ORDER BY 从 句 若 不 需要 可 以 不 出 现 。 


其 实 ， 在 SQL 的 基本 结构 中 ，QUIT 语 句 并 不 是 必须 的 ， 但 是 建议 在 完成 任务 后 以 QUIT 语 句 结束 当前 的 PROC SQL。SAS 执 行 完 PROC SQL 任 务 ， 如 果 后 面 没 有 其 他 DATA 步 或 PROC 步 ，PROC SQL 就 


不 会 退出 。 此 时 ，SAS 状 态 栏 会 一 直 显 示 running， 如 图 6.1 所 示 。 
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图 6.1 SAS 状 态 栏 一 直 显 示 tunning 


6.2.2 ”使 用 SQL 对 列 进行 操作 
上 面 介绍 了 PROC SQL 的 基本 结构 。 从 本 节 开 始 ， 会 具体 介绍 PROC SQL 的 基本 知识 。 下 面 先 介绍 PROC SQL 对 列 的 操作 ， 即 SELECT 从 句 。 


从 名 SELECT 选择 所 需要 的 列 ， 其 使 用 语法 如 下 





SELECT 表 名 称 . 列 1， 表 名 称 . 列 2，http://www.hzcourse.corVresource/readBook?path=/openresources/teach ebook/uncompressed/15092/0OEBPS/Text/... 














在 不 混淆 的 情况 下 ， 表 名 称 可 以 省 略 。 这 里 混淆 指 的 是 ， 选 择 的 列 出 现在 多 个 表 中 ， 此 时 ， 仪 依据 列 名 称 无 法 判断 具体 指 的 是 哪个 表 的 列 。 对 单 表 的 操作 则 不 涉及 该 情况 ， 表 名 可 以 省 略 。 此 
外 ，SELECT 从 句 中 ， 表 名 称 前 不 加 库 名 ， 库 名 在 后 续 的 FROM 从 句 中 指定 。 


如 果 用 户 要 选择 表 中 的 所 有 列 ， 可 以 一 一 列 出 所 有 列 的 名 称 ， 也 可 以 用 以 下 语法 : 








SELECT 表 名 称 .* 











用 户 可 以 使 用 关键 字 As 对 列 重 命名 ， 也 可 以 重新 定义 属性 ， 所 有 的 属性 可 以 加 在 列 名 称 后 ， 用 空格 隔 开 。 以 下 命令 会 将 列 1 的 名 称 修改 为 “新 名 称 ”，FORMAT 和 LABEL 选 项 分 别 修改 列 的 格式 和 标 


天 

















SELECT 表 名 称 . 列 1 AS 新 名 称 FORMAT = LABEI= ， 表 名 称 . 列 2，http://www.hzcourse.corm/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/... 


























除了 对 表格 重新 命名 外 ， 用 户 还 可 以 根据 原 表 中 的 列 生 成 新 的 列 ， 具 体 见 例 6.1。 


例 6.1: 表 sashelp.cars 包 含 了 汽车 生产 商 制 造 的 各 种 型 号 汽车 的 数据 。 下 面 使 用 SQL 语 句 输出 以 下 3 列 : Make (生产 商 ) 、Model (型 号 ) 以 及 MSRP (建议 零售 价 ) 。 同 时 生成 一 个 新 列 Tax ( 税 
金 ) ， 其 值 为 MSRP*0.06。 





proc sql; 
title "Generating A New Column"; 

select cars.Make, cars.Model, cars.MSRP, cars.msrp*0.06 as tax 

from sashelp.cars; 

quait» 











代码 中 使 用 了 TITLE 语 句 为 输出 的 报表 生成 标题 。 一 般 来 说 ，TITLE 语 句 的 位 置 可 以 在 PROC SQL 之 前 ， 也 可 以 位 于 SELECT 从 名 之前。 同样 地 ， 用 户 可 以 使 用 OOTNOTE 在 报表 中 添加 脚注 。 上 述 代码 
的 部 分 输出 结果 如 图 6.2 所 示 。 


Generatine A New Columnn 


Make | Model MSRP tax 
Acura | 前 口头 $36. 945 2216.7 
Acura RSX Type S 2dr $23. 820 | 1429.2 
Acura TSX 4dr $26. 990 ， 1619. 4 
Acura TL 4dr $33, 196 | 1991.7 
Acura 3.5 RL ddr $43, 755 | 2625.3 
Acura 3.5 RL whNaviegation 4dr $46, 100 2166 
Acura NSX coupe 2dr manual § $89. 765 | 5385.9 
Aud 1 Ad 1.81 ddr $25. 940 1556.4 
Aud 1 Adl. B81 convertible 2dr $35. 940 | 2156.4 
Aud 1 Ad 3.0 ddr $31. 840 | 1910.4 


图 6.2 ”代码 的 部 分 输出 结果 
加 注意 SELECT 从 名 中 列 的 先后 顺序 决定 了 在 输出 报表 中 它们 的 输出 顺序 。 

6.2.3 ”使 用 SQL 对 行进 行 操 作 

1.DISTINCT 关 键 字 


如 果 PROC SQL 语句 中 没有 WHERE 从 句 ， 那 么 SAs 输 出 全 部 行 (包括 原 表 中 重复 的 行 ) 。 若 用 户 不 希望 输出 重复 的 行 ， 可 以 在 SELECT 语句 中 使 用 DISTINCT 关 键 字 。 由 于 DISTINCT 的 作用 是 针对 
SELECT 从 句 中 的 所 有 列 而 言 的 ， 因 此 一 个 SELECT 从 句 最 多 只 能 包含 一 个 DISTINCT， 其 位 置 紧 随 SELECT 之 后 。 关 键 字 DISTINCT 的 使 用 格式 如 下 : 





SELECT DISTINCT 表 名 称 . 列 1， 表 名 称 . 列 2,http://www.hzcourse.corm/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/... 



































例 6.2: 根据 以 下 代码 ， 比 较 使 用 与 不 使 用 关键 字 DISTINCT 输 出 结果 的 区 别 。 


proc sql; 
title "不 使 用 distinct 关 键 字 "; 

select make from sashelp.cars; 

title "使 用 distinct 关 键 字 "; 

select distinct make from sashelp.cars; 






































部 分 和 输出 结果 如 图 6.3 所 示 。 


不 使 用 di sti nct 关 键 字 使 用 di stinct 关 键 于 


Make Make 
Acura Acura 
Acura Aud 1 
Acura EMW 
Acura Buick 


Acura Cadillac 
AcuUra CGChevrolet 
Acura Chrysler 


Aud i Dodee 
Audi Ford 
Aud i GMG 


图 6.3 ”两 种 输出 结果 
2.WHERE 从 句 
与 DATA 步 类 似 ，SQL 可 以 实现 逻辑 比较 符号 、 逻 辑 关系 符号 以 及 逻辑 运算 符号 与 WHERE 从 句 一 起 使 用 ， 来 选择 符合 条 件 的 行 。 下 面 是 WHERE 从 名 的 使 用 示例 。 
SQL 可 以 通过 WHERE 从 句 ， 并 结合 适当 的 逻辑 比较 符号 、 逻 辑 天 系 符号 和 逻辑 运算 符号 来 一 起 使 用 ， 从 而 选择 符合 条 件 的 行 。 下 面 是 WHERE 从 句 的 使 用 示例 。 
例 6.3: 修改 例 6.1 中 的 代码 ， 使 其 输出 MRSP 不 大 于 40000 的 行 。 


示例 代码 如 下 : 


proc sql; 
select cars.make, cars.model, cars.msrp, cars.msrp*0.06 as tax 
from sashelp.cars 
where msrp<=40000; 
its 








其 输出 结果 的 前 5 行 如 图 6.4 所 示 。 


Make Model MSsRP tax 
Acura ] MDX | $36.945 2216 7 | 
Acura RS Type 3S 2dr gb23.920 1429.2 
Acura TSX 4dr $26,990 1619.4 
Acura TL 4dr 33 195 1991.7 
Audi Ad 1.8T 4dr $25,940 1556.4 


图 6.4 例 6.3 输 出 结果 的 前 5 行 


在 例 6.3 中 ， 选 择 了 MRSP 不 大 于 40000 的 行 。 根 据 列 tax 的 定义 ， 这 些 行 也 可 以 通过 条 件 “tax< =2400” 来 得 到 。 但 是 如 果 用 户 在 WHERE 从 句 中 直接 使 用 该 条 件 ，SAS 会 提示 错误 。 比 如 ， 用 户 试 提交 
下 述 代码 : 





proc sql; 
select cars.make, cars.model, cars.msrp, cars.msrp*0.06 as tax 
from sashelp.cars 
Where tax <= 2400; 








quit; 





将 会 在 日 志 中 显示 如 图 6.5 所 示 的 错误 信息 。 


ERROR: 以 下 这 上 艺 列 在 起 作用 的 表 中 被 有 找到 : tax- 


图 6.5 “错误 信息 





错误 的 原因 是 SQL 试图 在 原 表 sashelp.cars 中 搜寻 列 tax， 但 列 tax 在 原 表 中 并 不 存在 ， 它 是 用 户 新 生成 的 列 。 对 于 新 生成 列 ， 用 户 都 必须 在 前 面 加 上 关键 字 CALCULATED 来 表明 该 列 是 新 生成 的 。 来 看 
以 下 示例 。 


例 6.4: 下 面 的 代码 中 使 用 了 关键 字 CALCULATED， 其 输出 结果 和 例 6.3 一 样 。 


示例 代码 如 下 : 


proc sql; 
select cars.make, cars.model, cars.msrp, cars.msrp*0.06 as tax 
from sashelp.cars 
where calculated tax <= 2400; 











uits 
3.ORDER 从 句 
在 SQL 中 可 以 使 用 ORDER 从 句 使 输出 的 报表 按照 某 些 列 来 进行 排序 。 默 认 情况 下 ，PROC SQL 按 照 指定 列 的 升序 排列 ， 若 用 户 希 望 按 降序 排序 ， 可 在 该 列 名 后 加 上 关键 字 DESC。ORDER 从 句 允 许 用 户 


按照 多 个 列 的 升 ( 降 ) 序 排 列 ， 多 个 列 之 间 多 逗号 隔 开 。ORDER 从 句 的 使 用 语法 如 下 : 



































ORDER BY 列 1<DESC>, 列 2<DESC>,http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/...; 





例 6.5: 修改 例 6.4 中 的 代码 ， 使 其 依次 按照 MSRP 的 升序 、Make 的 字母 降序 和 Model 的 字母 升序 排列 。 


示例 代码 如 下 : 





proc sql; 
select cars.make, cars.model, cars.msrp, cars.msrp*0.06 as tax 
from sashelp.cars 
where calculated tax<=2400 
order by msrp, make desc, model; 











quit; 





其 部 分 输出 结果 如 图 6.6 所 示 。 


Make Model MSRP | tax 
Kia Rio 4dr manual $10 280 616.8 
Hyundal Accent 2dr hatch $10.539 | 632.34 
Toyota Echo 2dr manual 下 10,760 645.6 
Saturn lon1 4dr $10 .995 659.71 
Kia Rio 4dr auto p11 155 669.3 
Toyota Echo 4dr $11.290 0 6r71.4 
Tovota Echo 2dr auto $11 560 693.6 


图 6.6 ” 例 6.5 的 部 分 输出 结果 
4.GROUP BY 从 名 


在 SQL 语言 中 ， 用 户 可 以 通过 GROUP BY 从 句 来 查看 分 组 信息 。 需 要 注意 的 是 ，GROUP BY 语句 一 般 和 汇总 函数 (summary function) 配合 使 用 ， 若 用 户 在 SELECT 从 句 中 不 添加 任何 汇总 函数 ， 那 么 
GROUP BY 从 句 会 被 当成 ORDER BY 从 句 来 使 用 。 表 6.2 列 举 了 常见 的 汇总 函数 及 其 含义 。 


表 6.2 ”常见 的 汇总 函数 及 其 含义 
Max 最 大 值 最 大 值 和 最 小 值 之 差 


Nmiss 缺 省 值 个 数 


一 
二 





在 表 6.2 中 ，COUNT 遂 数 的 使 用 相对 灵活 。 接 下 来 ， 将 重点 讲述 COUNT 函 数 的 使 用 。 在 SQL 中 ， 使 用 COUNT 函 数 可 以 很 方便 地 进行 计数 ， 其 使 用 命令 如 下 : 





COUNT ( 列 名 ) 


其 中 : 

. 列 名 是 “*” 的 时 候 ，COUNT 函 数 返 回 的 是 表 中 的 行 数 。 

` 列 名 前 面 可 以 加 上 DISTINCT， 这 样 重复 的 行 只 会 被 计算 一 次 。 

例 6.6: 使 用 SQL 计 算 表 sashelp.cars 中 不 同 厂商 的 个 数 。 

下 述 代码 使 用 count (distinct make) 来 计算 不 同 厂商 的 个 数 。 由 于 使 用 了 关键 字 DISTINCT， 因 此 重复 的 行 只 被 计算 一 次 。 


示例 代码 如 下 : 





proc sql; 
select count (distinct make) as number of maker 
from sashelp.cars; 











quit; 





输出 结果 如 图 6.7 所 示 。 








图 6.7 输出 结果 


若 去 掉 DISTINCT， 输 出 的 结果 将 会 是 428 而 不 是 38。 上 此外， 除了 使 用 “*” 以 外 ，COUNT 函 数 中 的 列 只 能 有 一 个 (这 点 不 同 于 SELECT 从 句 ， 它 可 以 选择 多 个 列 ) 。 例 如 ， 在 例 6.6 中 ， 如 果 用 户 希 望 计 
算 表 sashelp.cars 中 所 有 不 同 厂商 生产 的 汽车 型 号 的 数目 ， 直 接 使 用 COUNT 函 数 会 出 现 语 法 错误 ， 如 图 6.8 所 示 。 


1337 proc sq]l; 
1338 select count{(tmake model} as 时; 


了 


ERR0R 22-322: 语 层 异 误 ， 期 望 下 列 之 一 ， -= 


?， AND, Comm Cs i Pe GET，6T ， 6TT ， LE， LET， LIKE ， LT， LTT， HE ， NET， 


OR, =，|，|1， =- 


ERROR 76-322: 语法 错误 ， 语 名 将 局 外 略 。 





图 6.8 ”直接 使 用 COUNT 兄 数 出 现 语 法 错误 


解决 办 法 之 一 是 使 用 CATS 函 数 ， 用 它 连 接 列 Make 和 Model， 表 进行 计数 。 遂 数 CATS 的 使 用 语法 如 下 : 





CATS ( 列 1， 列 2，.…) ， 
其 作用 是 连接 括号 里 面 的 列 ， 同 时 删 去 头 尾 空格 。CATS 函 数 中 的 列 可 以 是 变量 、 字 符 或 者 数值 常量 、 表 达 式 。 有 关 CATS 函 数 的 详细 介绍 参见 SAs 帮 助 文档 。 


例 6.7: 使 用 SQL 计算 表 sashelp.cars 中 不 同 广 商 和 它们 生产 车 型 的 组 合 总 数 。 


这 里 将 采用 COUNT 函 数 并 结合 CATS 函 数 来 计算 多 列 的 组 合 。 示 例 代 码 如 下 : 





proc sql; 
select count (distinct cats (make, model) ) as N combination 
from sashelp.cars; 








quit; 





输出 结果 如 图 6.9 所 示 。 





图 6.9 不 同 厂 商 和 车 型 组 合 数 


例 6.8: 计算 表 sashelp.cars 中 每 个 汽车 生产 厂商 销售 的 所 有 型 号 汽车 的 建议 零售 价 (MSRP) 的 平均 值 ， 并 把 它们 按照 升序 排列 。 


这 里 使 用 GROUP BY 语句 对 表 中 的 行进 行 分 组 操作 。 示 例 代码 如 下 : 


proc sql; 
select make , avg (msrp) as average price 
from sashelp.cars 
group by make 
order by calculated average price; 


quit; 


上 述 代码 的 部 分 输出 结果 如 图 6.10 所 示 。 





Hyundai 17476.5 
MINI 1 
Honda 21434.71 
Mazda 21770.73 











图 6.10 例 6.8 的 部 分 输出 结果 


5.HAVING 从 名 


类 似 于 WHERE 语句 ，HAVING 语 句 也 是 用 来 选择 满足 特定 条 件 的 行 的， 二 者 不 同 之 处 在 于 : WHERE 从 句 的 操作 在 SELECT 从 名 前 ， 而 HAVING 从 句 的 执行 在 SELECT 与 GROUP BY 之 后 。 因 此 ， 涉 及 
GROUP BY 时 ， 只 能 使 用 HAVING 从 句 。 此 外 ， 在 没有 GROUP BY 从 名 的 情况 下 ，HAVING 从 名 可 以 代替 SELECT 从 句 。 由 于 HAVING 从 名 在 SELECT 之 后 执行 ， 因 此 对 于 SELECT 从 句 中 新 生成 的 列 ， 无 需 加 
关键 字 CALCULATED。 


例 6.9: 在 表 sashelp.cars 中 ， 计 算 每 个 汽车 三 商 销 售 所 有 型 号 汽车 的 建议 零售 价 (MSRP) 的 平均 值 ， 输 出 平均 值 小 于 20000 的 行 ， 输 出 结果 按照 厂商 的 字母 排序 。 


此 处 使 用 HAVING 语 句 。 示 例 代码 如 下 : 


proc sql; 
select make , avg (msrp) as average price 
from sashelp.cars 
group by make 
having average price <= 20000 
order by make; 





quit; 


部 分 输出 结果 如 图 6.11 所 示 。 


















































图 6.11 例 6.9 的 部 分 输出 结果 


注意 ”在 例 6.9 的 第 二 个 语句 中 ， 各 个 从 名 的 位 置 是 国定 的 ， 不 能 对 调 ， 如 HAVING 从 和 句 和 ORDER BY 从 名 的 位 置 不 能 对 调 。 


6.2.4 ”使 用 SQL 对 报表 加 工 与 生成 数据 集 


SQL 提 供 了 一 些 系统 选项 来 对 输出 的 报表 进行 加 工 ， 此 外 ，SQL 语 言 还 允许 用 户 将 报表 存储 成 SAS 数 据 集 。 下 面 先 来 介绍 一 下 SQL 中 制作 报表 的 一 些 选项 。 


1.NUMBERINONUMBER 选 项 


默认 情况 下 ，SQL 在 输出 报表 的 时 候 不 输出 行 数 (比较 : proc print 默 认输 出 行 数 ) 。 用 户 如 果 和 希望 看 到 行 数 ， 可 以 在 PROC SQL 语句 中 加 入 NUMBER 选 项 。 其 语法 格式 如 下 : 





PROC SQL NUMBER; 











2.0OUTOBS 和 INOBS 选 项 


SQL 通 过 OUTOBS= 选 项 ， 人 允许 用 户 指 定 输 出 表 中 的 前 若干 行 。 其 语法 格式 如 下 : 





OUTOBS = N 





其 中 ，N 为 指定 输出 行 数 。 


选项 INOBS 用 来 控制 读 入 表 的 行 的 数目 。 比 如 ， 以 下 选项 读 入 表 的 前 N 行 : 





INOBS = N 





例 6.10: 下 述 代 码 读 入 表 sashelp.cars， 仅 输出 不 同 厂商 和 汽车 型 号 组 合 的 前 10 个 ， 并 加 上 行 数 与 相应 的 标题 和 脚注 。 


示例 代码 如 下 : 





proc sql outobs = 10 number; 
title "The First Ten Car Models In The List"; 
select distinct cars.make, cars.model 
from sashelp.cars; 
quit; 














其 输出 结果 如 图 6.12 所 示 。 


The First Ten Gar Models ln The List 


行 | Make | Model | 
1 | 3.5 RL Adr 








2 | Acura | 3.5 RL w/Navieation Adr 





3 Acura | MDX 


Acura | NSXA coupe 2dr manual > 





Acura | RSX Type 5 2dr 








Acura TISX Adr 








4 
9 
6 | TL 4dr 
， 
68 


PT 生生 
9 |Audi |Aa 3.0 4dr 





10 Aud! | Ad 3.0 Guattro 4dr auto 


图 6.12 ” 例 6.10 的 部 分 输出 结果 


如 果 用 户 希 望 将 查询 到 的 数据 存储 成 SAAS 数据 集 ， 可 以 在 PROC SQL 中 加 入 CREATE 从 句 。 其 格式 如 下 : 





CREATE TABIE 库 名 . 表 名 AS 




















CREATE TABLE 库 名 . 表 名 AS 
例 6.11: 在 SQL 中 创建 表 ， 将 例 6.10 中 输出 的 数据 保存 成 SAs 数 据 集 。 


示例 代码 如 下 : 


proc sql outobs = 10 number; 
title "The First Ten Car Models In The List"; 
create table work.fist ten models as 
select distinct cars.make, cars.model 
from sashelp.cars; 

















quit; 


执行 上 述 代 码 ， 在 WORK 人 逻辑 库 内 可 以 看 到 新 建 的 数据 集 Fist ten _models， 如 图 6.13 所 示 。 


Classfit 
Daily order 


Donor_current 


iFist ten models 


图 6.13 ”数据 集 Fist_ten_models 





6.2.5” 子 查询 
所 谓 的 子 查 询 是 指 在 查询 语句 内 部 罕 套 一 个 查询 语句 。 按 照 吝 套 的 查询 语句 与 原 语句 关联 与 否 ， 子 查询 可 分 为 以 下 两 种 。 
“ 不 相关 子 查 询 : 子 查询 与 原 查询 无 关 。 


“ 相关 子 查询 : 子 查询 与 原 查询 相关 。 
例 6.12: 表 spending 中 的 列 max_spending 包 含 了 被 调查 人 用 于 买 车 的 最 大 支出 。 表 sashelp.cars 中 包含 了 车 商 生产 的 各 种 型 号 的 车 ， 以 及 建议 零售 价 。 试 用 PROC SQL 生成 一 个 报表 ， 要 求 该 报表 仪 
包含 平均 建议 零售 价 不 超过 max_spending 均 值 的 汽车 制造 商 。 


这 里 采用 不 相关 子 查 询 ， 示 例 代码 如 下 : 


data work.spending; 
input ID max spending; 
datalines; 
1 16000 
2 20000 
3 24000 
4 18000 
5 23000 








EU 
proc sql; 
title " Recommended Brands"; 
select cars.make, avg(cars.msrp) as avg msrp 
from sashelp.cars 
group by cars.make 
having avg (cars.msrp) <= 
(select avg (max spending) from work.spending); 














quit; 





上 述 代 码 中 ， 在 HAVING 从 句 的 逻辑 表达 式 中 用 到 了 一 个 子 查询 : select avg (max spending) from work.spending。PROC SQL 优先 处 理子 查询 ， 即 SQL 首先 从 表 spending 中 计算 出 


avg (max_spending) ， 然 后 把 该 值 返回 原 查询 语句 中 进行 处 理 。 该 子 查询 的 处 理 仅 依赖 表 spending， 与 原 表 sashelp.cars 无 关 ， 这 是 一 个 不 相关 子 查询 。PROC SQL 输出 结果 如 图 6.14 所 示 。 


实际 中 ， 更 经 常 遇 到 的 情况 是 子 查询 的 处 理 涉 及 原 查 询 。 例 如 ， 表 Donors 包 含 了 所 有 捐赠 人 的 姓名 和 捐赠 额 ; 表 Donors_ Currentf 公 包含 今年 捐赠 人 的 姓名 ， 具 体 如 图 6.15 所 示 。 





ecommended Brands 


Make ave_msrp 








Kia 15875. 91 
MINI 
Saturn 1723 
clon ] 
Suzuki 16230. 25 














图 6.14 PROC SQL 的 输出 结果 


Donors 


name | amount Donors Current 
John 


name 


John 


Chirs 10000 
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图 6.15 ” 表 Donors 和 表 Donors_Cutrent 
二 者 的 交集 为 今年 捐赠 人 的 姓名 和 金额 。 若 把 二 者 的 交集 作为 一 个 子 查询 ， 那 么 这 个 查询 就 是 相关 子 查询 。 
例 6.13: 利用 PROC SQL 输 出 表 Donors 中 不 是 今年 捐赠 人 的 姓名 以 及 捐赠 额 。 


示例 代码 如 下 : 


proc sql; 

title "Donors From Other Years"; 

select * from donors 

Where not exists( 
select name from donor current 

where donor current.name = donors.name); 











quit; 


在 上 述 代码 中 ， 括 号 内 为 二 者 的 交集 ， 是 一 个 相关 子 查询 。 该 子 查询 的 结果 是 表 donors 中 属于 donor_current 的 所 有 名 字 ， 即 表 donors 中 今年 捐赠 人 的 名 字 。 子 查询 的 结果 将 返回 到 原 查询 中 。 关 键 词 
NOT EXISTS 仅 从 表 donors 中 查询 出 不 在 子 查询 结果 中 的 行 ， 即 表 donors 中 不 是 今年 捐赠 人 的 名 字 与 金额 。 输 出 结果 如 图 6.16 所 示 。 


Donors From Vther Tears 

















Pauw | 0500 





图 6.16 输出 结果 


6.3 ”使 用 SQL 对 表 进 行 横向 合并 


对 多 个 表格 进行 合并 (包括 横向 合并 与 纵向 合并 ) 的 实质 是 对 两 个 表格 进行 合并 ， 因 此 在 本 节 中 ， 仪 考虑 两 个 表格 的 情况 。 此 外 ， 使 用 SQL 对 表 进 行 横 向 合并 可 分 为 内 连接 (INNER JOINS) 与 外 连接 
(OUTER JOINS) 。 


6.3.1 ”使 用 SQL 对 表 进 行内 连接 


所 谓 的 内 连接 指 的 是 ， 在 对 表 进 行 横向 连接 的 时 候 ， 根 据 连 接 的 条 件 ， 仪 返回 两 个 表 中 所 有 匹配 的 数据 。 


对 表 A 和 表 B 最 简单 、 最 基础 的 横向 连接 是 生成 两 表 的 卡 氏 积 。 卡 氏 积 可 以 看 作 是 内 连接 的 一 种 特殊 情况 。 表 A 和 表 B 的 卡 氏 积 表 是 指 : 表 A 中 的 行 和 表 B 中 的 行 所 有 可 能 的 组 合 。 因 此 ， 假 设 A 和 B 的 行 娄 
分 别 为 M 和 N， 那 么 生成 的 卡 氏 积 表 的 行 数 为 MxN。 表 A、 表 B 及 它们 生成 的 卡 氏 积 表 如 图 6.17 所 示 。 
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图 6.17 表 A、 表 B 及 它们 生成 的 卡 氏 积 表 


G1 
C2 


加 注意 ”生成 卡 氏 积 的 表 会 随 着 原来 表 行 数 的 增加 而 急剧 增加 。 例 如 ， 两 个 10 行 的 表 ， 生 成 的 卡 氏 积 表 为 100; 但 是 ， 两 个 100 行 的 表 所 生成 的 卡 氏 积 表 将 会 为 10000 行 。 


两 表 的 卡 氏 积 表 输 出 的 是 两 表 的 所 有 可 能 组 合 。 在 实际 应 用 中 ， 这 种 没有 选择 地 输出 所 有 结果 的 意义 不 大 。 更 多 的 情况 是 ， 


件 的 部 分 卡 氏 积 表 观测 的 一 种 方法 。 其 使 用 语法 如 下 : 








SIEG4 表 1. 列 1， 表 1. 列 2 ，..， 表 2. 列 1， 表 2. 列 2，。、 
表 1， 表 2 


F 
WHERE 从 名 
< 其 他 从 名 > 


QOULT; 























上 述 从 句 的 执行 顺序 如 下 : 


1) 根据 FROM 从 句 内 的 表 生 成 卡 氏 积 ， 即 表 1 和 表 2 的 卡 氏 积 。 


2) 根据 WHERE 从 名 选择 卡 氏 积 中 的 每 一 行进 行 扫描 ， 判 断 该 行 是 否 符合 条 件 ， 


删除 不 满足 条 件 的 行 。 


3) 若 SQL 从 句 中 有 汇总 函数 ， 则 根据 汇总 函数 进行 相应 的 处 理 ; 否则 ， 进 行 下 一 步 。 


4) 输出 满足 条 件 的 行 。 


使 用 PROC SQL 对 两 表 进 行 横向 合并 时 ，PROC SQL 总 是 先生 成 卡 氏 积 表 ， 再 对 卡 氏 积 表 中 的 行 一 一 进行 判断 ， 确 定 其 是 否 


序 。 但 这 样 做 的 缺点 也 是 显然 的 : 对 两 个 相对 较 大 的 表 横向 合并 时 ， 中 间 会 生成 一 个 更 大 的 卡 氏 积 表 。 


例 6.14: 表 class 包 含 了 部 分 学 生 姓 名 、 性 别 、 年 龄 与 身高 ， 表 classfit 包 含 了 学 生 姓 名 和 体重 。 利 用 SQL 生成 一 个 报表 ， 仅 输出 在 两 个 表 中 都 出 现 的 行 。 


要 实现 此 功能 ，SQL 要 对 两 个 表 进 行 检 索 ， 示 例 代 码 如 下 : 


data work.class; 
input name $ sex $ age height; 
datalines; 
Alice F 14 56.5 
Carol F 14 62.8 
James M 12 57.3 











LUN: 
data work.classfit; 
input student name $ weight; 
datalines; 
James 83 
Carol 102.5 














title "Students Fitness " 

select c.name, c.sex, Cc.age, c.height, cfit.weight 

from work.class as c, work.classfit as cfit 
where c.name = cfit.student name 


























duits 


需要 有 选择 地 输出 卡 氏 积 表 的 一 些 观测 。 内 连接 是 


常见 的 、 用 于 输出 满足 条 


苗 足 连接 条 件 。 正 因为 如 此 ， 在 使 用 SQL 对 表格 合并 时 ， 并 不 要 求 表格 已 排 





在 上 述 代码 中 ，SQL 首 先生 成 了 work.class 与 work.classfit 的 卡 氏 积 表 ， 共 6 行 


， 其 中 符合 WHERE 从 句 的 仅 有 2 行 。 


最 后 按 SELECT 从 名 选择 的 列 输出 ， 结 果 如 图 6.18 所 示 。 
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图 6.18 ”输出 SELECT 从 名 选择 的 列 


6.3.2 ”使 用 SQL 对 表 进 行 外 连接 


根据 前 面 的 介绍 ， 内 连接 输出 的 是 两 表 的 卡 氏 积 表 中 符合 特定 条 件 的 行 。 如 果 还 希望 同时 输出 一 些 不 符合 特定 条 件 的 行 ， 那 么 可 以 考虑 使 用 外 连接 。 对 表 A 和 表 B 进 行 外 连接 指 的 是 输出 两 表 内 连接 的 行 
及 部 分 来 自 表 A 或 者 表 B 的 行 。 外 连接 根据 连接 的 方式 可 以 分 为 以 下 3 种 : 


. 左 连接 (LEFT JOIN) 
. 右 连接 (RIGHT JOIN) 
. 全 连接 (FULL JOIN) 


外 连接 的 语法 如 下 : 








PROC SOL; 
LECT 表 1. 列 1， 表 1. 列 2，.. 表 2. 列 1， 表 2. 列 2，.. 
ROM 表 1 





mp 





忆 可 0 











EFT JOIN 
表 2 
ON 连接 条 件 
< 其 他 从 句 > 








RIGHT JOIN|FULL JOIN 

















@ 注 意 在 上 述 各 种 外 连接 中 ， 连 接 条 件 的 关键 字 是 ON， 而 不 是 WHERE。 


表 6.3 总 结 了 上 述 3 种 不 同 的 外 连接 方式 及 它们 的 含义 。 


表 6.3 ”外 连接 方式 及 其 含义 
连接 条 件 含 义 


输出 两 表 中 满足 内 连接 的 行 ， 以 及 表 1 中 
的 其 余 行 


图 不 


左 连 接 (LEFT JOIN) 


辆 出 两 表 中 满足 内 连接 的 行 ， 以 及 表 2 中 


右 连 接 (RIGHT JOIN) |,,,，.,,. 
的 其 余 行 





全 出 两 雪 中 满足 内 连接 的 行 ， 以 及 两 表 
全 连接 (FULL JOIN) 输出 两 表 中 满足 内 连接 的 行 ， 以 及 两 表 中 


的 其 余 行 





例 6.15: 使 用 SQL 语 句 对 表 进行 内 连接 ， 表 A 与 表 B 如 图 6.19 所 示 。 


上 VIEWTABLE: Work.A 


walue1 

















图 6.19 表 A 与 表 B 
以 下 代码 分 别 使 用 上 述 3 种 连接 条 件 对 表 人 A 和 表 B 进 行 连接 。 
proc sql; 
select * 
from work.A 连接 条 件 work.B 
on A.x = B.x; 
quit; 
输出 结果 如 图 6.20 所 示 。 
| Valuel x value2 
1 和 a 
Valuel x valuey Valuel x valuey ib aX 
1 名 ; ib FP 3e 
ib 过 |X . 本 | 尼 4 Vv 
名 二 Vv 与 | 时 


连接 条 件 : left join 连接 条 件 : right join 连接 条 件 : fll join 


图 6.20 3 种 连接 的 输出 结果 


@ 注 意 ”比较 一 下 使 用 全 连接 和 使 用 卡 氏 积 连 接 两 个 表 的 情况 : 表 A 与 表 B 的 卡 氏 积 表 共有 9 行 ， 而 它们 的 全 连接 表 只 有 5 行 。 


6.4 使 用 ?SQL 对 表 进 行 纵向 合并 


本 节 介 绍 如 何 利用 SQL 对 表 进 行 纵向 合并 。 同 上 节 一 样 ， 本 节 仅 考 虑 对 两 个 表 的 纵向 合并 。 用 SQL 进行 表 合 并 的 语法 如 下 : 





PROC SOL; 
SELECT* FROM A 

< 其 他 从 名 > 

连接 方式 <ALL><CORR> 

SELECT * FROM B 

< 其 他 从 句 > 






































其 中 : 
. 上 述 每 个 SELECT 的 用 法 与 其 在 单 表 中 的 用 法 一 样 ， 即 可 在 SELECT 从 名 中 添加 其 他 从 句 ， 如 WHERE、GROUP BY、HAVING 等 。 
. 可 供 选择 的 连接 方式 有 EXCEPT、INTERSECT、UNION 和 OUTER UNION 等 几 种 。 
下 面 将 具体 讲解 如 何 使 用 上 述 不 同 连接 方式 对 表格 进行 纵向 合并 。 
6.4.1 ”使 用 关键 字 EXCEPT 对 表 进 行 纵向 合并 
使 用 关键 字 EXCEPT 对 表 A 和 表 B 进 行 纵向 合并 ， 其 结果 是 : SQL 会 选择 在 表 A 中 但 不 在 表 B 中 的 行 ， 且 A 中 重复 的 行 不 会 出 现在 合并 的 结果 中 。 
本 小 节 将 使 用 如 图 6.21 所 示 的 两 个 表 。 


例 6.16: 将 上 述 表 A 和 表 B 使 用 EXCEPT 纵 向 合并 ， 输 出 结果 并 分 析 。 


示例 代码 如 下 : 





proc sql; 
title "Combining Two Tables Vertically Using EXCEPT"; 
select * from A 



































select * from B 





quit; 





用 户 提交 上 述 代 码 ， 运 行 后 ， 结 果 如 图 6.22 所 示 。 
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图 6.21 将 使 用 的 表 A 和 表 B 
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图 6.22 ”运行 结果 
下 面 来 具体 分 析 EXCEPT 合 并 表 的 具体 过 程 : 


1) EXCEPT 对 表 的 合并 是 根据 表 中 列 的 位 置 来 进行 的 。 合 并 后 的 表 的 列 名 称 与 第 一 个 表 的 名 称 一 致 。 合 并 时 ， 要 求 两 个 表 对 应 列 的 类 型 必须 一 致 ， 否 则 PROC SQL 停止 合并 ， 并 在 日 志 中 输出 错误 信 
息 。 在 例 6.16 中 ， 表 A 与 表 B 对 应 列 的 类 型 一 致 ， 合 并 后 的 表 名 与 表 A 的 名 称 一 致 ， 即 ID 和 X。 


2) PROC SQL 对 表 进 行 了 两 轮 扫 描 。 第 一 轮 扫 描 在 合并 前 进行 ， 此 时 SQL 会 扫描 表 人 A 中 重复 的 行 ， 并 将 其 删除 。 在 例 6.16 中 ， 表 A 的 第 4 行 在 扫描 过 程 中 会 被 删除 (和 第 1 行 重复 ) 。 该 步 结束 后 ， 待 合 
并 的 表 里 还 有 4 行 。 


3) SQL 进 行 第 二 次 扫描 ， 关 键 字 EXCEPT 的 作用 是 使 SQL 仅 输出 在 表 A、 不 在 表 B 中 的 行 。 上 述 4 行 中 的 (1,，b) 和 (2，b) 在 表 B 中 出 现 ， 因 此 不 输出 。 剩 下 的 2 行为 最 终 输出 结果 ， 如 图 6.22 所 示 。 
1. 关 键 字 ALL 


上 例 中 ， 若 用 户 希 望 输出 所 有 在 表 A 中 但 不 在 表 B 中 的 行 (包括 表 A 中 重复 的 行 ) ， 则 可 在 EXCEPT 后 加 上 关键 字 ALL。 该 关键 字 的 作用 是 ，SQL 会 跳 过 第 一 次 扫描 ， 直 接 进行 第 二 次 扫描 ， 即 上 例 中 的 第 
3 步 。 其 代码 如 下 : 














proc sql; 
title "Combining Two Tables Vertically Using EXCEPT ALL"™"; 
select * from A 


























select * from B 


quit; 


输出 结果 如 图 6.23 所 示 。 


2. 关 键 字 CORR 
上 述 例子 中 ， 对 表 的 合并 是 基于 表 的 位 置 的 : 只 要 是 对 应 列 的 类 型 相同 〈 同 为 数值 型 或 者 字符 型 ) ， 就 加 以 合并 ， 不 管 列 名 称 。 当 然 ，PROC SQL 也 可 以 基于 表 中 列 的 名 称 对 表 进 行 纵向 合并 ， 有 具体 示 
例如 下 。 


例 6.17: 在 EXCEPT 纵 向 合并 表 中 使 用 关键 字 CORR。 


示例 代码 如 下 : 








proc sql; 
title "Combining Two Tables Vertically Using EXCEPT CORR"; 
select * from B 






































quit; 





其 输出 结果 如 图 6.24 所 示 。 
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图 6.24 例 6.17 的 输出 结果 
使 用 CORR 时 ，SQL 会 根据 表 中 列 的 名 称 进行 合并 ， 删 除 所 有 不 是 同时 在 两 个 表 中 的 列 。 上 例 中 ， 列 1D 在 两 表 中 均 有 出 现 ， 因 此 保留 到 输出 结果 中 ; 而 X 与 Y 两 列 分 别 只 在 一 个 表 中 ， 因 此 不 输出 这 两 
列 。 
@ 注 意 使 用 CORR 关 键 字 对 表 进 行 合并 时 ， 仅 要 求 表 中 的 列 具 有 相同 名 称 ， 而 不 要 求 它们 的 位 置 也 相同 。 例 如 ， 假 设 表 C 含 有 两 列 : X 和 ID， 在 与 A 合 并 时 ， 输 出 结果 也 应 包含 ID 和 X 两 列 。 
若 同 时 使 用 ALL 和 CORR 关 键 字 ， 那 么 PROC SQL 会 根据 表 中 列 的 名 称 进行 纵向 合并 ， 输 出 结果 中 可 包括 重复 的 行 。 
例 6.18: 在 EXCEPT 纵 向 合并 表 中 同时 使 用 关键 字 CORR 和 ALL。 


示例 代码 如 下 : 


proc sql; 
title "Combining Two Tables Vertically Using CORR ALL"; 
select * from 

except corr all 

select *ff 





























i 
其 输出 结果 如 图 6.25 所 示 。 


6.4.2 ”使 用 关键 字 INTERSECT 对 表 进 行 纵向 合并 
使 用 关键 字 INTERSECT 对 表 A 和 表 B 进 行 纵向 合并 的 结果 是 : SQL 会 选择 表 A 中 不 重复 的 、 同 时 在 表 B 中 的 行 。 


例 6.19: 使 用 如 图 6.26 所 示 的 两 个 表 ， 并 采用 关键 字 INTERSECT 纵 向 合并 表 。 


Combining Two Tables Vertically Using EXCEPT CORR ALL 


图 6.25 ” 例 6.18 的 输出 结果 


Eh VIEWTABLE: Work.B 





图 6.26 ”示例 中 使 用 的 表 A 和 表 B 


示例 代码 如 下 : 


proc sql; 
select * from A 




















select * from B 


其 中 ， 使 用 不 同 连接 方式 时 相应 的 输出 结果 如 图 6.27 所 示 。 


wD 


ID x ID | X 1 
1ia 1 1 1 
了 | 了 | 3 


连接 方式 1 intersect 连接 方式 2 intersect all 连接 方式 3 intersect all co 


图 6.27 使 用 不 同 连 接 方式 时 的 输出 结果 


与 EXCEPT 一 样 ， 除 非 使 用 关键 字 CORR， 人 否则 使 用 INTERSECT 纵 向 合并 表 也 是 基于 表 中 列 的 相对 位 置 〈 即 只 要 对 应 列 的 类 型 相同 即 可 ) 。 在 图 6.27 中 ， 连 接 方 式 1 中 ，SQL 实 现 删 去 表 A 中 重复 的 行 ， 
输出 剩余 的 行 与 表 B 的 交集 ; 连接 方式 2 中 ， 不 删除 表 A 中 的 重复 行 ， 直 接 输出 两 表 的 交集 ; 连接 方式 3 中 ， 对 表格 的 合并 是 基于 名 称 的 ， 表 A 与 表 B 共 同名 称 的 列 只 有 ID， 此 外 ，All 的 使 用 使 得 合并 前 不 删除 
表 A 中 重复 的 1D。 


6.4.3 ”使 用 关键 字 UNION 对 表 进 行 纵向 合并 


若 用 户 想 要 对 表 A 和 表 B 进 行 纵向 合并 ， 同 时 又 要 输出 在 表 A 中 或 者 在 表 B 中 上 且 不 重复 的 所 有 行 ， 这 种 情况 下 ， 可 使 用 关键 字 UNION。 其 使 用 语法 如 下 : 


PROC SOL; 

ELECT * FROM 表 和 A 

< 其 他 从 句 > 
UNION <ALL> <CORR> 

SELECT * FROM 表 B 

< 其 他 从 句 > 





CD 























使 用 UNION 进 行 表 的 纵向 合并 是 基于 列 的 位 置 。 
例 6.20: 使 用 关键 字 UNION 进 行 表 的 纵向 合并 。 


下 述 代码 使 用 UNION 纵 向 合并 图 6.26 中 的 表 A 与 表 B : 











proc sql; 
title "Combining Two Tables Vertically Using UNION"; 
select * from A 























select * from B; 
quit; 


使 用 关键 字 UNION 纵 向 合并 表 时 ，SQL 首 先 会 对 表 进 行 纵向 合并 、 排 序 ， 如 图 6.28 中 的 左 图 所 示 。 接 着 删除 重复 的 行 ， 该 结果 为 最 终 PROC SQL 的 输出 结果 ， 如 图 6.28 中 的 右 图 所 示 。 
若 在 UNION 后 面 加 上 ALL， 那 么 SQL 既 不 会 删除 重复 的 行 ， 也 不 会 对 行进 行 排序 。 
例 6.21: 在 UNION 中 使 用 关键 字 ALL， 对 表 进 行 纵向 合并 。 


示例 代码 如 下 : 


proc sql; 
title "Combining Two Tables Vertically Using UNION ALL"; 
select * from a 

union all 


= 


select * from b; 
quit; 














其 输出 结果 如 图 6.29 所 示 。 

















El 上 
| | E 


图 6.28 合并 过 程 及 输出 结果 


bombining Two Tables Vertical ly Using UNION ALL 


从 输出 结果 中 可 以 看 出 ，PROC SQL 既 没有 删除 表 中 重复 的 行 也 没有 对 表 进 行 排序 。 


例 6.22: 在 UNION 中 使 用 关键 字 CORR， 对 表 进 行 纵向 合并 。 


示例 代码 如 下 : 


1D Xx 


1 


ts | 3 


图 6.29 ” 例 6.21 的 输出 结果 





proc sql; 





title "Combining Two Tables Vertically Using UN] 
A 





[ON CORR" 








select 
union 








COT 工 








select * 
quit; 


from B; 





1D 是 表 A 与 表 B 唯 一 的 共同 列 ， 由 于 使 用 关键 字 CORR，PROC SQL 将 根据 表 的 名 称 来 合并 列 ， 因 此 SQL 输出 结果 中 仅 含 列 ID。 在 纵向 合并 后 的 两 个 表 中 ，1D 值 1、2 和 3 是 所 有 不 重复 的 行 ， 


结果 如 图 6.30 所 示 。 


因此 ， 输 出 


bombining Two Tables Vertically Using UNION GORR 


例 6.23: 在 UNION 中 同时 使 用 ALL 和 CORR， 对 表 A 和 表 B 进 行 纵向 合并 。 


示例 代码 如 下 所 示 : 


proc sql; 








title "Combining Two Tables Vertically Using UN] 


[ON ALL CORR™; 








select 
union 


all corr 











select 








from B; 





guit; 


例 6.22 的 输出 结果 


当 同 时 使 用 ALL 和 CORR 时 ，SQL 会 根据 表 中 列 的 名 称 同 时 输出 所 有 的 行 (包含 重复 的 行 ) 。 答 出 结果 如 图 6.31 所 示 。 


Lombining [wo Tables Vertical ly Using UNION ALL GORR 


th | My 


图 6.31 例 6.23 的 输出 结果 


6.4.4 ”使 用 关键 字 OUTER UNION 对 表 进 行 纵向 合并 


前 面 介绍 的 3 种 使 用 PROC SQL 对 表 进 行 纵向 合并 的 方法 都 会 覆盖 表 B 的 某 些 列 。 若 用 户 想 要 在 输出 结果 中 同时 查看 来 自 表 A 和 表 B 的 所 有 列 ， 可 以 使 用 OUTER UNION 进 行 合 并 。 其 使 用 语法 如 下 : 





PROC SQL; 
ET 























ELECT * FROM 表 B 
让 他 从 人 句 > 





NmONG 
二 四 握 煌 
园 合 
9 
只 
入 
A 
3 








QUIT; 
使 用 OUTER UNION 纵 向 合并 表 时 具有 如 下 特点 : 
. 不 会 覆盖 表 的 列 。 
* 两 个 表 里 的 所 有 行 都 会 出 现在 输出 结果 中 。 
加 注意 OUTER UNION 不 能 和 ALL 同 时 使 用 。 


考虑 使 用 如 图 6.32 所 示 的 表 A 与 表 B。 





图 6.32 ”即将 使 用 的 表 A 与 表 B 


例 6.24: 分 别 使 用 OUTER UNION 与 OUTER UNION CORR 对 表 A 和 表 B 进 行 纵向 合并 。 
示例 代码 如 下 所 示 : 


proc sql; 
title " 表 1"， 
footnote "连接 方式 : outer union'" ， 
select * from a 
outer union 
select * from b; 
quit; 
proc sql; 
title " 表 2"; 
footnote "连接 方式 : outer union corr" ， 
select * from a 




















其 输出 结果 如 图 6.33 所 示 。 


DIY 






































话 接 方式 ，outer union 


图 6.33” 例 6.24 的 输出 结果 






































从 上 述 输出 结果 中 可 以 看 出 ， 使 用 OUTER UNION 纵 向 合并 表 不 会 删除 表 中 重复 的 行 。 事 实 上 ，PROC SQL 在 执行 OUTER UNION 命 令 时 只 进行 了 一 次 扫描 (比较 : INTERSECT 执 行 时 进行 了 两 次 扫 
描 ， 第 一 次 扫描 时 删 去 了 重复 的 行 ) 。 另 外 ， 表 1 显示 ，OUTER UNION 不 会 覆盖 列 ， 来 自 于 表 A 和 表 B 的 所 有 列 在 结果 中 都 输出 了 。 在 表 2 中 ， 由 于 使 用 了 关键 字 CORR， 因 此 PROC SQL 合并 了 两 表 中 的 ID 
列 。 


6.5 ”使 用 SQL 管理 表 


本 节 将 阐述 如 何 利 用 SQL 对 表 进 行 管理 ， 包 括 创建 新 表 、 新 增 或 者 删除 若干 行 、 更 新 表 中 列 的 值 以 及 删除 表 等 。 对 表 进 行 管理 时 ， 往 往 需要 了 解 原 表 的 结构 ， 包 括 表 中 的 列 以 及 它们 的 属性 。 在 这 种 情 
况 下 ， 用 户 可 以 使 用 DESCRIBE 语 句 ， 其 使 用 语法 如 下 : 
PROC SOQOL; 


DESCRIBE TABLE 表 和 名， 
QUIT; 





























SAS 在 日 志 中 输出 表 的 结构 包括 : 表 的 列 、 属 性 、 长 度 和 标签 。 
例 6.25: 使 用 PROC SQL 查 看 表 sashelp.class 的 结构 。 


示例 代码 如 下 : 


proc sql; 
describe table sashelp.class; 
quit; 








在 日 志 中 可 以 看 到 如 图 6.34 所 示 的 输出 结果 。 


create table SnhSHELP .CLASS( 1abel=" 守 生 类 gr” bufsize=4096 


( 
Hame charti1i2) label=' 姓 省 "， 
Sex charft4y 1abel- "性 别 |"， 


Age num 1abel=' 年 紫 '， 
Height num 1abel=' 身 襄 
Weight num label=" 





图 6.34 ” 表 sashelp.class 的 结构 
从 上 述 输出 结果 中 可 以 看 到 表 sashelp.class 的 结构 。 例 如 ， 列 Name 是 一 个 长 度 为 12 的 字符 列 ， 标 签 为 “姓名 ”; 列 Age 是 数值 型 ， 标 签 为 “年 龄 ”。 
6.5.1 使 用 SQL 复制 、 创 建 与 删除 表 
本 小 节 介绍 如 何 利用 SQL 进 行 表 的 操作 ， 具 体 包括 复制 表 、 创 建 一 个 空 表 、 根 据 原 有 表格 创建 一 个 结构 类 似 的 表 、 删 除 表 。 
1. 复 制 表 
在 DATA 步 中 ， 我 们 可 以 很 方便 地 复制 一 个 表 。 比 如 ， 以 下 代码 将 生成 一 个 和 sashelp.cars 一 模 一 样 的 表 ， 名 为 cars_copy。 


data work.cars copy; 
Set sashelp.cars; 
run; 


上 述 命 令 也 可 以 用 PROC SQL 来 实现 ， 其 代码 如 下 : 





proc sql; 
create table work.cars copy as 
select * from sashelp.cars; 
quit; 





若 用 户 仅 需要 表 sashelp.cars 中 的 部 分 列 ， 可 以 在 select 语 句 中 加 以 指明 。 此 外 ，PROC SQL 不 仅 能 复制 表 ， 更 重要 的 是 能 根据 原 表 灵 活 地 创建 空 表 。 
2. 创 建 空 表 

例 6.26: 使 用 PROC SQL 创建 一 个 空 表 ， 表 中 的 列 以 及 它们 的 属性 要 和 表 sashelp.new_class 中 对 应 列 的 属性 一 致 。 

示例 代码 如 下 : 


proc sql; 
create table new class 





( 

Name char (12) label=' 姓 名 '， 
Sex char (4) label="' 性 别 '， 
Age num label=' 年 龄 '， 
Height num label=' 身 高 (英寸 ) '， 
Weight num labe] " 


) 


























quit; 


上 述 代 码 创 建 了 一 个 包含 5 列 的 空 表 ， 例 如 : 列 Name 是 字符 型 ， 括 号 里 面 的 数字 指定 了 该 列 中 字符 的 长 度 为 12， 标 签 为 “姓名 ”。 用 户 也 可 以 在 定义 列 的 时 候 指定 该 列 的 格式 ， 例 如 ， 我 们 可 以 修改 上 
述 Height 的 定义 ， 指 定 其 格式 为 comma8.1。 








Height num label=' 身 高 (英寸 ) ' format = comma8.1, 





除了 一 一 输入 所 有 要 创建 的 列 的 属性 外 ，PROC SQL 还 提供 了 利用 关键 字 like 来 创建 一 个 与 已 有 表 结 构 一 样 的 空 表 。 例 如 以 下 代码 实现 例 6.26 中 一 样 的 任务 。 


proc sql; 
create table work.new class 
like sashelp.class; 

quit; 





在 日 志 中 显示 了 创建 表 的 信息 ， 如 图 6.35 所 示 。 


3. 删 除 表 


使 用 SQL 删 除 表 的 操作 是 通过 DROP TABLE 语 句 来 实现 的 。 其 使 用 语法 如 下 : 





PROC SOL; 
DROP TABLE 表 名 ; 
QUIT; 














其 中 ， 表 名 可 以 是 “ 库 名 . 表 名 ”， 也 可 以 是 用 引号 括 起 来 的 数据 集 文件 所 在 的 物理 路 径 。 
例 6.27: 使 用 SQL 中 的 DROP 语 句 删 除 例 6.26 中 生成 的 空 表 work.new_class。 


示例 代码 如 下 : 





proc sql; 
drop table work.new class; 


quit; 


提交 上 述 代码 ， 日 志 中 显示 了 如 图 6.36 所 示 的 信息 。 


proc SU1 ， 
create table work.new Class 


like sashelp .class; : 
0TE: 志 WO0RK.NEW CLASS 创建 守成 ， 上 有 


图 6.35 ”创建 新 表 





proc sql: 
drop table Work new classs 


HOTE:; 表 WORK .NEW_CLASS 已 册 | 除 。 
19 gult : 





图 6.36 ”删除 表 


6.5.2 ”使 用 SQL 插 入 行 
在 PROC SQL 语言 中 ， 用 户 可 以 使 用 NSERT 把 新 的 行 值 插入 表 中 ， 这 里 的 表 可 以 是 空 表 。 使 用 INSERT 的 方法 有 以 下 3 种 : 
“SET 从 句 
. VALUE 从 多 
` 使 用 查询 的 结果 
在 上 述 3 种 方法 中 ，PROC SQL 总 是 先 在 表 中 插入 一 个 新 行 ， 然 后 再 对 行进 行 赋值 。 若 操作 成 功 ，SAs 在 日 志 中 会 显示 相关 的 信息 。 


例 6.28: 在 例 6.26 中 生成 的 空 表 new_class 中 ， 使 用 SET 语句 插入 下 面 两 个 新 行 。 (Meaghan，F，19，56，140) ， (Jack，M,，21，63，160) 。 


示例 代码 如 下 : 














proc sql; 

title "New class"; 

insert into new class 

set Name = 'Meaghan', 
Sex = "FEF', 
Age=19, 
Height = 56， 
Weight = 140 

set Name = 'Jack’", 
Sex = 'M', 
Age=21, 
Height = 63, 





title "Insert New Observations Using SET"; 
select * from new class; 








在 上 述 代码 中 ，INSERT INTO 标 明了 待 操作 的 表 ， 两 个 SET 语 句 分 别 对 应 两 个 新 行 。 最 后 ，SELECT 语 句 选 择 插入 两 个 新 行 后 的 表 作为 报表 的 输出 ， 如 图 6.37 所 示 。 
例 6.29: 使 用 VALUE 语句 实现 例 6.28 中 的 任务 ， 即 插入 新 行 。 


示例 代码 如 下 : 


proc sql; 
insert into new class (Name, Sex, Age, Height, Weight) 
values ('Meaghan', 'F', 19, 56, 140) 
values ('Jack', 'M', 21, 63, 160); 
title "Insert New Observations Using VALUE"; 
select * from new class; 
quit; 














在 上 述 代码 中 ，INSERT 语 句 中 的 new_class 标 明了 操作 的 表 ， 括 号 是 表 中 待 操作 的 列 。 若 要 插入 的 行 包含 了 原 表 中 的 所 有 列 ， 则 上 述 括号 可 以 省 略 。 每 一 个 VALUE 语 句 对 应 一 个 待 插入 的 行 ，VALUE 括 
号 里 面值 的 顺序 应 该 和 INSERT 括 号 中 的 列 一 一 对 应 。 输 出 结果 如 图 6.38 所 示 。 


Insert New Observations Using SET 


姓名 “| 性 别 年 上 | 身高 (英寸 ) | 体重 ( 磅 ) 
19 56 
Jack | 21 63 160 














图 6.37 插入 两 个 新 行 后 的 表 


Insert New Vbservations Usins VALUE 





姓名 ”性别 年 莹 身高 《英寸 ) | 体重 ( 磅 ) 
Weaghan |F | 19 56 140 


| 
| 
| 


Jack NM | 21 63 160 


图 6.38 ”用 VALUE 语句 实现 播 入 
最 后 ， 介 绍 如 何 将 查询 的 结果 作为 新 的 行 插入 一 个 表 。 


例 6.30: 表 sashelp.calssfit 共 10 列 ， 其 中 5 列 和 class 里 面 的 列 相 同 ， 这 5 列 分 别 是 : Name、Sex、Age、Height、Weight。 现 在 要 求 将 sashelp.calssfit 中 所 有 Age=12 的 行 插入 例 6.29 中 的 表 new _class 
中 (该 表 非 空 ， 已 经 包含 2 行 ) 。 


示例 代码 如 下 : 





: Proc sgl; 
insert 





select 











from sashelp.classfi 


into new class 
Name, Sex, Age, Height, Weight 
it 











[nsert New Observations Using Query Results"; 





itle"] 


select * 


. quit; 


1 

2 

E:; 

4. 1 

5; where Age=12 
6 

7 

8 





from new class; 





上 述 代码 中 ， 第 3~ 5 行 是 一 个 标准 的 SELECT 语句 ， 该 语句 从 表 sashelp.classfit 中 选 出 Age=12 的 行 ， 且 仅 选 择 了 5 列 。1INSERT 语 句 将 SELECT 语句 的 结果 作为 新 行 插入 表 new_class 中 。 第 7 行 的 SELECT 


语句 选择 了 表 new_class 中 的 所 有 内 容 作为 报表 输出 ， 结 果 如 图 6.39 所 示 。 


Insert New Obhservations Using Query Raesults 


姓名 性 别 年 龄 | 身高 (英寸 ) 体重 【和 磅 ) 


Meaghan F 19 56 
Jack Y 中] 63 
Louise |F lz 50. 3 
James Hy lz 本 二 
John Ny lz 6b9 
Jane F lz by. 8 
Robert (MM lz 64.8 


图 6.39 ” 例 6.30 的 输出 结果 


上 述 结果 中 的 后 5 行 是 来 自 于 表 sashelp.classfit 中 满足 条 件 Age=12 的 所 有 行 。 


6.5.3 ”使 用 SQL 删除 部 分 行 


在 SQL 中 用 户 可 以 使 用 DELETE 语 句 删 除 部 分 行 。 若 该 语句 成 功 执行 ，SAs 在 日 志 中 输出 相应 的 信息 。DELETE 语 句 的 语法 如 下 : 


140 
160 
77 


128 








DELETE FROM 表 名 




















<WHERE 语 句 > 


例 6.31: 复制 表 sashelp.class 为 work.class， 计 算 表 work.class 中 体重 和 身高 的 比 ， 删 去 所 有 比值 大 于 1.5 的 行 。 


» “UL 








在 日 志 中 ， 我 们 可 以 看 到 如 图 6.40 所 示 的 信息 。 


HOTE: 从 WORK .CLASS 中 删除 了 11 行 。 


图 6.40 ”删除 部 分 行 





该 信息 表明 ， 删 除 操作 成 功 。 


示例 代码 如 下 : 

1.。 Prec sqgql; 

2 create table class as 

这 select * from sashelp.class; 

4. quit; 

8 

6. proc sql; 

7. delete from class 

8 . where (class.weight/class.height)>1.5; 
9 


6.5.4 使 用 SQL 修改 表 的 列 


在 6.2.2 节 中 介绍 了 如 何 使 用 SQL 对 列 进行 一 些 操 作 ， 包 括 新 增 列 、 在 输出 报表 中 修改 列 的 格式 等 ， 这 些 都 不 会 影响 原 表 。 本 节 介 绍 的 修改 表 列 的 操作 是 对 原 表 直接 进行 的 操作 。 使 用 SQL 对 原 表 的 列 进 
行 删 除 、 新 增 或 者 修改 属性 的 语句 是 ALTER TABLE， 其 语法 如 下 : 


PROC SOL; 
ALTER TABLE 表 名 
ADD 列 1， 列 2， .… 
DROP 列 1， 列 2， .… 
MOD] FFY 列 1， 列 2， .; 
QUIT; 
































其 中 ， 关 键 词 APDD、DROP、MODIFY 分 别 对 应 着 指定 列 的 新 增 、 删 除 和 修改 属性 这 3 种 不 同 的 操作 。 上 述 3 种 操作 在 ALTER 语 句 中 至 少 需要 出 现 一 种 。 此 外 ， 三 者 之 间 无 顺序 上 的 先后 关系 。 


例 6.32: 使 用 SQL 修改 表 work.class 中 的 列 ， 删 除 列 Age 与 Sex; 新 增 两 个 列 Student ID 与 Boarding， 其 中 列 Student_1D 为 数值 型 ， 其 格式 为 “4.”，Boarding 的 格式 为 字符 型 ， 长 度 为 1; 修改 列 
Height 格 式 为 “8.1”， 标 签 为 “ModifiedHeight”。 

















示例 代码 如 下 : 
1.。 proc sql; 
2 create table work.class as 
3 select * from sashelp.class; 
4. quit; 
人 
6. proc sql; 
了 卫 alter table work.class 
8 add Student ID num format = 4., Boarding char(1) 
9 drop Age, Sex 
modify Height format = 8.1 label = 'ModifiedHeight'; 




















10 . 
11. quit; 





操作 前 后 数据 集 的 对 比如 图 6.41 和 图 6.42 所 示 。 





图 6.41 操作 前 的 数据 集 





图 6.42 ”操作 后 的 数据 集 


6.5.5 ”使 用 SQL 更 新 列 的 值 


在 实际 应 用 中 ， 常 常 需要 对 列 值 进行 更 新 ， 而 且 对 于 不 同行 ， 其 更 新 的 规则 可 能 是 不 一 样 的 。 例 如 ， 表 sashelp.class 中 学 生 的 身高 (Height) 与 体重 (Weight) 在 下 一 年 中 将 会 发 生变 化 ， 据 预测 ， 年 
龄 (Age) 在 11~12 岁 的 学 生 ， 身 高 和 体重 会 增长 5%，13~14 岁 的 学 生 ， 身 高 和 体重 会 有 6% 的 增长 ， 其 余年 龄 的 学 生 其 身高 和 体重 会 有 4% 的 增长 。 在 这 种 情况 下 ， 不 同行 的 Height 和 Weight 的 更 新 规则 
将 会 不 一 样 ， 对 此 ，PROC SQL 提供 了 以 下 两 种 处 理 的 方法 : 


. 使 用 多 个 UPDATE 语 句 。 
. 使 用 UPDATE 和 和 CASE 语句 。 


例 6.33: 使 用 多 个 UPDATE 语 句 对 表 sashelp.class 中 列 年 龄 、 身 高 和 体重 进行 更 新 。 






















































































示例 代码 如 下 : 

1 proc sql; 

2 create table class as 

3 select * from sashelp.class } 

4. quit; 

5 Proc sql; 

6 update class 

7 set height = height*1.05, weight = weight *1.05 
8 where age in (11, 12); 

9 update class 

0 set height = height*1.06, weight = weight *1.05 
二 下。 where age in (13, 14); 

下 update class 

下 set height = height*1.04, weight = weight *1.05 
14. where age in (15, 16); 

二 号。 update class 

16. set age = aget+l; 

L7Git; 

18,. proc sql outobs=6; 

19. title "更 新 前 后 对 比 (1)"; 

20. select class.* ,Cc.Age as age before label= ' 原 年 龄 '， 

21. c.Height as h before label = ' 原 身高 '， 

22. c.Weight as w before label = ' 原 体重 ' 

23. from class, sashelp.class as c 

24. where class.name = c.name; 

29» -Git> 





上 述 代 码 中 ， 第 1~4 行 ， 复 制 sashelp.class 表 为 class ( 库 sashelp 里 面 的 数据 集 不 允许 更 改 ， 因 此 要 把 数据 集 复制 到 work 库 里 面 操作 ) ; 第 6~8 行 、 第 9~11 行 和 第 11~ 14 行 分 3 个 年 龄 段 对 表 class 中 的 
Height 与 Weight 值 进行 了 相应 的 更 新 ; 第 15~16 行 将 上 述 更 新 完 的 表 中 的 Age 值 加 1; 第 18~ 24 行 输出 原来 表 和 更 新 后 表 的 前 6 行 ， 结 果 如 图 6.43 所 示 。 


黑 靳 醒 后 对 比 (1) 


给 名 性 别 | 年 苍 | 身高 (英寸 ) ”体重 ( 磅 ) | 原 年 齿 原 身 高 | 原 体重 
Br 水 旨 密 德 | 15 13.14 118. 125 14 69 ] 1i2.6 
爱丽 丝 
昔 苦 拉 
可 下 

训 利 

语词 其 


14 by. 89 88. 2 13 56.5 Bd 
14 69. 218 i102.9 13 65. 3 98 
15 66. 568 107. 625 14 bB2.8 102.5 


由 灶 | 汗 | 灶 | 由 


15 671. 31 107. 625 14 63.65 | 102.5 
13 60. 165 81. 15 lz 651.3 83 


图 6.43 更 新 前 后 对 比 (1) 


例 6.34: 使 用 UPDATE 和 CASE 语 句 对 sashelp.class 中 的 年 龄 、 身 高 和 体重 进行 更 新 。 











示例 代码 如 下 : 

1. proc sql; 

此 create table class as 

了。 select * from sashelp.class } 

4. quit; 

5. Proc sql; 

6 . update class 

7 。 set height = height* 

8 . case 

9 when age in (11, 12) then 1.05 






































0: when age in (13, 14) then 1.06 
ls else 1.04 

12s engd; 

上 3 

14. update class 

15% set weight = weight* 

16. Case 

17. when age in (11, 12) then 1.05 
TI:8.. when age in (13, 14) then 1.06 
下 9 else 1.04 

20.。 eng; 

21. update class 

2 set age = aget+l; 

23. guit; 

24. 

25. proc sql outobs=6; 

26. title "更 新 前 后 对 比 (2) "; 











27. select class.* ,Cc.Age as age before label= ' 原 年 龄 '， 





28 . c.Height as h _ before label = ' 原 身高 '， 
1 




















29. c.Weight as w before label = ' 原 体重 
30.. from class, sashelp.class as c 

下、 where class.name = c.name; 

32 uit 





上 述 代码 中 ， 第 1~4 行 复制 了 表 sashelp.class; 第 7~12 行 使 用 单个 UPDATE 和 CASE 对 列 Height 进 行 了 更 新 (因为 原 表 中 除了 11~14 岁 外 ， 只 有 15~16 岁 ， 因 此 可 以 使 用 ELSE 语 句 ) ; 第 14~20 行 使 用 
单个 UPDATE 和 CASE 对 列 Weight 进 行 更 新 ; 第 21~22 行 对 Age 进 行 更 新 ; 第 26~31 输 出 前 后 对 比 结果 ， 如 图 6.44 所 示 。 


更 新 柄 后 对 比 (2》 


姓名 性 别 年 龄 身高 (英寸 ) ”体重 ( 磅 ) 原 年 龄 | 原 身 高 厚 体 重 
阿尔 弗 和 一 德 ] 15 73. 14 118. 125 14 69 112.5 
爱丽 些 
色色 技 
总 总 

至 利 

度 得 其 








14 yd. 09 0. < 13 yb. 9 4 
14 69. 218 102.9 13 bo.3 96 
ly bo. 68 101. G25 14 bc. 总 | 10e.u 
15 67. 31 107. 625 1#4 63. 日 | 102.8 


眉 咎 冲冲 | 冲 避 


13 60. 165 B81. 19 iz 日 六 本 bd 


图 6.44 更 新 前 后 对 比 (2) 


加 注意 上 述 两 个 例子 中 对 Age 的 更 新 应 该 是 在 最 后 进行 ， 因 为 之 前 列 Height 和 Weight 的 更 新 是 基于 原来 表 中 Age 值 的 。 


6.6 ”本章 小 结 


本 章 介绍 了 使 用 SAS SQL 语 言 的 基本 结构 和 使 用 SQL 过 程 检索 数据 的 基本 语法 ;介绍 了 如 何 使 用 SQL 过 程 对 多 个 表 进 行 横 向 合并 和 纵向 合并 ， 以 及 在 合并 表 的 过 程 中 多 个 关键 字 的 使 用 方法 和 区 别 ; 在 
最 后 一 部 分 介绍 了 如 何 使 用 SQL 过 程 管理 表 ， 包 括 复 制 表 、 删 除 表 、 创 建 空 表 、 在 表 中 插入 行 、 删 除 行 、 修 改 表 中 的 列 以 及 更 新 列 的 值 等 内 容 。 


第 7 章 SAS 宏 语言 


SAS 宏 语言 是 SAS 编 程 的 一 个 重要 组 成 部 分 。 使 用 SAS 宏 语言 可 以 实现 代码 的 重复 利用 、 完 成 复杂 的 逻辑 判断 和 条 件 控 制 ， 从 而 使 代码 更 为 简短 清晰 。 此 外 ， 使 用 宏 语言 可 以 自动 生成 代码 ， 这 使 得 程序 
具备 了 极 高 的 灵活 性 且 易 于 维护 。 本 章 将 介绍 宏 变 量 的 定义 与 使 用 、 宏 函数 、 宏 的 开发 ， 以 及 宏 语言 与 之 前 学 过 的 DATA 步 、PROC 步 和 SQL 语 言 的 交互 ， 同 时 也 会 介绍 如 何 自动 生成 代码 和 条 件 控制 等 。 


7.1 SAS 宏 语言 概述 
SAS 宏 语言 实际 上 是 一 种 文本 语言 。 在 宏 语 言 中 所 有 变量 的 值 都 只 能 是 字符 。 宏 语言 的 特征 之 一 是 带 有 符号 “&” 和 “%”， 前 者 一 般 与 宏 变 量 一 起 使 用 ， 后 者 常 与 宏一 起 使 用 。 下 面 结合 例子 简单 说 明 
如 何 使 用 宏 语 言 来 提高 编程 的 效率 。 


例 7.1: 数据 集 sashelp.orsales 中 包含 1999~2002 年 的 销售 信息 。 要 求生 成 一 个 2001 年 销售 记录 的 报告 ， 并 且 要 求 报告 的 标题 必须 包含 报告 创建 的 时 间 、 星 期 与 日 期 ， 副 标题 要 包含 生成 报告 的 操作 系 
统 与 SAS 版 本 信息 。 


实现 代码 如 下 : 





data orsales2001; 
set sashelp.orsales; 
if year = 2001; 





run; 

proc print data = orsales2001; 

title "Sales Record in Year20017"7 

footnotel “Created 22: OlMonday, 210CT2013"; 
footnote2 "on the WIN System Using SAS 9.3"7 























上 述 代码 虽然 实现 了 目标 ， 但 是 不 易 维 护 ， 主 要 体现 在 以 下 两 个 方面 : 
` 阴影 部 分 (报告 时 间 、 星 期 、 日 期 以 及 操作 系统 信息 等 ) 都 需要 用 户 手动 输入 。 
"上述 代 码 中 2001 出 现 了 4 次 。 假 设 用 户 想 查看 其 他 年 份 的 数据 集 ， 不 使 用 宏 语言 ， 只 能 在 程序 中 将 出 现 的 所 有 2001 都 做 葵 换 。 


使 用 宏 语 言 改写 上 述 代码 如 下 : 


Slet year = 2001; 
data orsales&year; 
set sashelp.orsales; 
if year = &year; 
run; 
proc print data = orsales&year; 

Titjle "Sales Record in Year&year"™; 
footnotel "Created &systime &sysday, &sysdate9"; 
footnote2 "on the &sysscp System Using SAS &sysver"; 





























AWN 


[a 





上 述 代 码 中 ， 第 1 行 定义 了 宏 变 量 year， 并 赋值 为 2001。 在 余下 代码 中 ， 使 用 &year 来 代替 2001。 假 设 现在 要 查看 2002 年 的 信息 ， 只 需 修改 第 1 行 赋值 处 即 可 ， 这 显然 比例 7.1 中 的 代码 更 容易 维护 。 此 


外 


~ 


脚注 footnote 里 面 利用 &systime、&sysday 等 系统 宏 变 量 ， 自 动 生成 了 需要 的 时 间 人 信息， 避免 了 手工 输入 (具体 见 例 7.7) 。 


宏 语言 的 作用 还 体现 在 可 以 有 条 件 地 执行 代码 。 假 设 一 位 数据 管理 人 员 需 要 在 每 天 下 班 前 生成 一 个 当天 的 日 报告 ， 若 该 天 是 周 五 ， 则 需要 生成 一 个 本 周 的 报告 〈 周 五 不 用 生成 日 报告 ) 。 这 就 涉及 条 件 
控制 了 。 使 用 DATA 步 和 PROC 步 都 无 法 简单 地 实现 流程 的 条 件 控制 ， 但 通过 宏 语 言 可 以 很 方便 地 解决 这 一 问题 。 这 里 仪 给 给 出 流程 ， 具 体 代码 会 在 介绍 相关 知识 后 给 出 。 流 程 如 下 : 


gsif (当天 是 周 五 ) $then (周报 告 代码 ) 
selse (当天 报告 代码 ) 











运行 上 述 程序 ，SAS 会 自动 判断 该 执行 哪 段 代码 。 总 之 ，SAS 宏 语言 可 以 让 SAS 编 程 更 加 灵活 ， 易 于 使 用 与 维护 。 


7.2.1 ” 宏 变 量 的 定义 


掌握 宏 语言 首先 需要 学 习 如 何 定 义 和 使 用 宏 变 量 。 用 户 可 以 在 SAS 程 序 中 除数 据 行 以 外 的 任何 地 方 定义 宏 变量 。 宏 变量 的 定义 方法 主要 有 以 下 3 种 : 


. 使 用 %LET 语 名。 
. 在 DATA 步 中 定义 宏 变 量 。 
“ 在 SQL 语言 中 定义 宏 变 量 。 


现在 介绍 如 何 使 用 %LET 语 名 定义 宏 变 量 ， 后 面 会 专门 讲述 如 何在 DATA 步 和 SQL 语句 中 定义 宏 变 量 。%LET 语 句 的 使 用 语法 如 下 : 











sLET 变量 名 = 宏 变 量 值 ; 


. 宏 变 量 名 最 多 可 以 包含 32 个 字符 。 


宏 变 量 名 必须 由 字母 和 下 划 线 开始 ， 且 由 字母 、 下 划 线 以 及 数字 组 成 。 


宏 变 量 值 可 以 是 任何 字符 事 ,， 但 是 长 度 不 能 超过 65534。 
使 用 宏 变 量 要 注意 以 下 几 点 : 


` 宏 变量 值 的 内 容 均 存储 为 字符 串 。 


Sy 
淹 
ia 
藉 
< 个 
加 
3 
襄 
车 


. 车 宏 变量 值 头 尾 含有 空格 ， 那 么 赋值 时 头 尾 的 空格 会 被 移 除 。 
如 果 宏 变量 值 包 含 引 号 ， 那 么 赋值 时 引号 也 会 被 储存 。 
例 7.2: %LET 语 句 的 使 用 。 表 7.1 列 举 了 不 同情 形 下 %LET 语 句 的 用 法 以 及 对 应 的 输出 。 


表 7.1 %LET 语 和 句 的 用 法 


GE 长 度 
%jlet namel = Ryan Jones: 10 
%jlet name2 = 'Ryan Jones': 12 


%jlet var=two leading blanks: var two leading blanks 18 








7.2.2” 宏 变量 的 调用 


1. 宏 变量 的 直接 调用 


在 程序 中 为 了 得 到 宏 变 量 的 值 ， 需 要 先 引 用 该 宏 变 量 。 具 体 的 规则 如 下 : 





& 宏 变量 名 
宏 变 量 的 引用 过 程 也 称 为 宏 变 量 的 解析 。 要 注意 的 是 ， 单 引号 内 的 宏 变 量 不 会 被 解析 ， 所 以 ， 如 果 要 使 用 引号 并 且 希 望 引 号 中 的 宏 变 量 被 解析 ， 则 必须 使 用 双 引 号 ， 具 体 见 例 7.3。 
例 7.3: 在 代码 中 定义 宏 变 量 town， 在 第 二 个 和 第 三 个 DATA 步 中 分 别 解析 该 变量 。 


示例 代码 如 下 : 








$let town = Detroit; 
data work.city; 
input city $ state $; 
datalines; 
Detroit MI 
Chicadgo IL 

















run; 
data work.city2; 

set work.city; 

where city = '&town'; 
run; 
data work.city3; 

set work.city; 

where city = "&town"; 
UN 





SAS 日 志 显 示 第 三 个 DATA 步 成 功 解析 宏 变 量 Town， 而 第 二 个 DATA 步 里 宏 变 量 Town 没 有 被 解析 ， 如 图 7.1 所 示 。 


HOTE: 从 数据 集 WORK. CITY， 读 职 了 0 个 观测 NOTE: 从 数据 集 WORK.CITY。 读 取 了 1 个 观测 


WHERE city= &town : WHERE city= Detroit ， 
NOTE: 数据 集 WORK, CITY2 有 0 个 观测 和 2 小 变 童 。 NoTE; 数据 集 WORK, CITY3 有 1 个 观测 和 2 个 蛮 双 。 





图 7.1 宏 变 量 Town 的 解析 


2. 安 变量 的 间接 调用 


在 宏 编程 中 ， 有 时 需要 间接 地 调用 宏 变 量 ， 间 接 调用 宏 变量 是 通过 多 个 “&” 符 号 来 实现 的 。 宏 处 理 器 对 多 个 “&” 的 处 理 规则 是 : 从 左 到 右 进 行 扫 摘 ， 若 宏 变 量 前 仅 售 有 一 个 “&” ， 则 解析 该 安 变 
量 ; 否则 将 相 邻 的 两 个 “&” 蔡 换 成 一 个 “&”， 重复 上 述 扫描 过 程 。 


例 7.4: 多 个 “&” 符 号 的 使 用 ， 在 %PUT 语 句 中 间接 引用 宏 变 量 Name9。 


示例 代码 如 下 : 





$let CustID = 9; 
Slet Name9 = Kirsty; 
Sput &&&Name&CustID; 

















在 上 述 代码 中 ，%PUT 语 句 进行 的 扫描 如 图 7.2 所 示 。 





图 7.2 对 “&” 符 号 的 扫描 


3. 宏 变量 在 文本 中 的 分 隔 

宏 变 量 可 以 是 任何 文本 ,编程 中 宏 变 量 往往 需要 和 其 他 文本 结合 在 一 起 ， 在 这 种 情况 下 ， 就 要 让 宏 变 量 与 其 他 文本 有 所 分 隔 。 分 隔 的 方法 是 在 宏 变量 名 后 加 上 一 个 “.” 号 ， 也 就 是 说 ， 符 
号 “&” 与 “.” 之 间 的 部 分 为 要 解析 的 变量 名 。 

例 7.5: 数据 集 sashelp.orsales 中 变量 quarter 的 值 包含 年 份 与 季度 信息 ， 如 1999Q1 代 表 年 份 为 1999， 季 度 为 第 1 季度 。 现 在 要 根据 季度 值 的 不 同 ， 创 建 4 个 数据 集 ， 使 得 季度 值 相同 的 观测 在 同一 个 数 
据 集 内 。 


此 时 ， 需 要 使 用 “. ”让 宏 变量 与 其 他 文本 分 隔 开 来 。 示 例 代 码 如 下 : 


$let name = SaleQO; 
data work.&name.l1 work.&name.2 work.&name.3 work.&name.4; 
set sashelp.orsales; 











if (substr (quarter,5, 2) = 'Q1' ) then 
output work.&name.1; 
else if (substr(gquarter,5, 2) = '02' ) then 





output work.&name.2; 

else if (substr (quarter,5, 2) ='Q3') then 
output work.&name.3; 

else output work.&name.4; 




















run; 





在 上 述 代 码 中 ，name 前 后 的 点 号 起 着 分 隔 宏 变 量 与 文本 的 作用 ， 是 必 不 可 少 的 。 执 行 上 述 代码 ， 生 成 4 个 数据 集 ， 如 图 7.3 所 示 。 


VIEWTABLE: Work.Saleql VIEWTABLE: Work.Saleq2 


1399 139301 
1939 站 全 | 














| 1999 199993 
ss 199993 





图 7.3 ”生成 4 个 数据 集 


7.2.3” 宏 变量 的 查看 

前 面 介绍 了 宏 变 量 的 定义 与 引用 ， 在 SAS 程 序 调试 过 程 中 ， 用 户 常 常 需要 查看 宏 变 量 的 值 。 常 见 的 查看 宏 变 量 值 的 方法 有 以 下 两 种 : 
. %PUT 语 和 句 。 

. 宏 语言 系统 选项 OPTIONS SYMBOLGEN。 


%PUT 语 句 的 语法 如 下 : 


sPUT & 宏 变量 名 ，; 





使 用 %PUT 输 出 宏 变 量 时 ， 可 以 附加 一 些 说 明 ， 让 输出 结果 一 目 了 然 。 例 如 ， 假 设 用 户 需 要 查看 宏 变 量 year 中 存储 的 值 ， 则 可 以 通过 以 下 代码 实现 : 


$let year = 2001; 
Sput year = &year; 








在 日 志 里 ， 用 户 可 以 查看 到 如 图 7.4 所 示 的 输出 结果 。 


put year = &year; 


= 2681 





图 7.4” 宏 变量 的 输出 
加 注意 PUT 和 %PUT 不 能 混淆 : 前 者 仅 在 DATA 步 中 使 用 ; 后 者 属于 宏 语言 范畴 ， 可 以 在 除了 数据 行 以 外 的 任何 地 方 调用 。 
此 外 ，SAS 为 %PUT 提 供 了 一 些 选项 ， 语 法 如 下 : 


sPUT 选项 ， 





其 中 ， 选 项 ALL 用 于 输出 所 有 宏 变 量 的 值 ， 包 括 系 统 宏 变量 和 用 户 自 定义 宏 变量 ; 选项 AUTOMATIC 仪 输出 系统 宏 变 量 ; 选项 USER _ 仅 输出 用 户 定义 宏 变 量 。 所 谓 的 系统 宏 变 量 ， 顾 名 思 义 就 


SAS 系 统 生 成 的 宏 变量 ， 而 用 户 定 义 宏 变量 则 指 用 户 自己 定义 的 宏 变 量 
在 使 用 选项 SYMBOLGEN 时 ， 如 果 用 户 解析 某 个 宏 变 量 ，SAS 则 会 在 日 志 


除了 使 用 %PUT 语 句 在 日 志 里 查看 宏 变量 的 值 以 外 ， 用 户 还 可 以 通用 修改 SAS 宏 语言 系统 选项 来 查看 宏 变 量 的 值 。 具 体 而 言 ， 


中 显 


} 示 该 安 变量 的 解析 值 (默认 情况 下 不 显示 该 信息 ) 。 


SYMBOLGEN 选 项 的 语法 如 下 : 


























OPTIONS NONSYMBOLGEN | SYMBOLGEN 














选项 SYSBOLGEN 为 系统 选项 ， 这 就 表示 该 选项 


例 7.6: 使 用 SYMBOLGEN 选 项 ， Year。 


定义 并 调用 安 变 量 


示例 代码 如 下 : 





OPTIONS SYMBOLCEN 
$let Year = 2003; 
data null ， 
Current year = &Year; 
run; 加 

















会 一 直 有 效 ， 直 至 用 户 修改 该 选项 或 者 SAS 会 话 


结束 。 





在 日 志 中 显示 的 信息 如 图 7.5 所 示 。 


pa 
229 
224 
225 
syHBOLGEN: 
220 runs;s 


data 


图 7.5 


正如 上 节 指 出 ， 宏 变量 按 来 源 可 分 为 系统 宏 变 量 和 用 户 自 定义 宏 变 量 。 





Current year 


宏 变量 YEAR 解析 为 2993 


此 外 ， 按 可 使 用 的 范围 ， 宏 变量 


UPTIUONS SYMBOLGEN: 
let Year 
nyull  ; 


2003 - 





显示 宏 变量 的 解析 值 


可 分 为 局 部 宏 变 量 与 全 局 宏 变量 


SAS 系 统 在 启动 时 就 自动 生成 了 一 些 宏 变 量 。 表 7.2 列 出 了 一 些 常 见 的 SAS 系 统 宏 变量 及 它们 的 含义 。 
表 7.2 常见 的 系统 宏 变 量 及 其 含义 

SYSDATE SAS 系统 运行 日 期 (DATE7. 格式 ) 
SYSDATE9 SAS 系统 运行 日 期 (DATE9. 格式 ) 
SYSDAY SAS 系统 运行 的 周 天 (星期 几 ) 
SYSTIME SAS 系统 运行 的 详细 时 间 
SYSSCP SAS 系统 运行 的 系统 环境 的 简写 ， 
SYSVER 前 运行 SAS 系统 的 版 本 


例 7.7: 在 7.1 节 中 ， 使 用 宏 变量 重新 编写 了 例 7.1 中 的 程序 ， 


提交 该 代码 ， 运 行 结果 中 ， 标 题 


部 分 如 图 7.6 所 示 。 


Sales Record Imn Year2001 


Obs | Year Quarter Product Line | Product_ Category 
1| 2001 | 2001Q1 | Children 


| MNT WMNNTMN hilran 


Children Spors 


RilAran Cte 


图 7.6 使 用 系统 宏 变 


脚注 部 分 如 图 7.7 所 示 。 


Product_Group Ouantity 
A-Team, Kids 260 
Bathinas Sinmte ide | 


灾 量 自动 生成 标题 


E&Year: 


tn WIN、HP300 


Profit | Total Retail_ Price 
4400.95 7957.20 


1394 7 TIQA 3N 


228 | 2001 | 200104 (Spons Winter Spons Winter Spons 2638 | 144591.30 261052.45 


Created 13:14 Wednesday, OQ6NOV2013 
on the WIN System USIng SAS 9.4 


图 7.7 使 用 系统 宏 变 量 自动 生成 脚注 


7.2.5” 宏 变量 的 删除 


前 面 已 经 介绍 了 如 何 定 义 、 调 用 与 查看 宏 变 量 的 值 ， 在 编程 中 有 时 需要 删除 某 些 自 定义 的 宏 变 量 (系统 宏 变 量 是 不 允许 删除 的 ) 。 删 除 用 户 自 定义 的 宏 变 量 是 通过 %SYMDEL 来 实现 的 ， 其 语法 如 下 : 














%SYMDEL 宏 变量 名 1 宏 变 量 名 2; 











例如 ， 以 下 代码 可 删除 例 7.7 中 定义 的 宏 变 量 year。 


Ssymdel year; 


SAs 提 供 了 大 量 的 函数 供用 户 在 DATA 步 中 调用 。SAs 在 宏 语 言 中 也 定义 了 一 些 六 数 ， 这 些 函 数 称 为 安国 数 。SAs 国 数 和 宏 函 数 的 区 别 在 于 ， 宏 语言 函数 一 般 前 面 带 有 宏 符 号 “%” 。 例 如 ， 下 面 代码 
中 ， 带 “%” 的 SUBSTR 标 明 该 函数 属于 宏 范畴 。 


substr (Qate，6) ， 
ssubstr(&sysdate9, 6); 


. 在 宏 语言 中 调用 SAS 肖 数 
处理 算术 与 还 辑 表达 式 的 宏 函 数 
: 处 理 文本 的 宏 函 数 
7.3.1 在 安 语言 中 调用 SAS 国 数 
SAS 通 过 宏 函 数 %SYSFUNC 来 支持 绝 大 多 数 SAS 函 数 在 宏 语言 中 的 调用 ， 其 语法 如 下 : 


%SYSFUNC (函数 ( 消 数 参数 ) < 格式 >) 





其 中 : 
函数 是 使 用 的 SAS 函 数 名 称 。 
子 数 参数 是 该 SAS 函 数 使 用 时 所 需要 的 参数 。 
“ 格式 是 用 户 根 据 需要 选择 输出 结果 的 格式 。 


例如 ， 以 下 代码 在 宏 语 言 的 环境 中 会 调用 SAS 遂 数 today(): 





Title "Report produced on %sysfunc(today(), worddate.)"™; 


所 有 的 SAS 函 数 都 可 以 和 %SYSFUNC 一 起 使 用 ， 但 不 包括 DIF、DIM、HBOUND、INPUT、IORCMSG、LAG、LBOUND、MISSING、PUT、RESOLVE、SYMGET 和 所 有 的 变量 信息 函数 (Variable 
Information Function) 。 有 关 这 些 函 数 的 详细 信息 可 参见 SAS 帮 助 文档 。 
7.3.2 ”用 宏 函 数 处 理 算术 与 逻辑 表达 式 
在 例 7.2 中 ， 使 用 %LET 语 句 定义 了 宏 变量 x 并 赋值 为 “3+4”,， 这 里 “+” 被 当成 字符 存储 。 若 用 户 希 望 SAs 执 行 算 术 符 号 “+” ， 可 以 使 用 宏 冰 数 %EVAL。 宏 函数 %EVAL 的 作用 如 下 : 
将 表示 整数 《和 十 六 进 制 数 ) 的 字符 串 转 为 整数 。 
算术 和 逻辑 运算 
` 将 代表 算术 、 比 较 与 远 辑 的 符号 转化 成 为 宏 范 畴 的 符号 。 


对 于 一 个 整数 型 的 算术 表达 式 ， 若 其 结果 不 是 整数 ，%EVAL 会 将 结果 的 小 数 部 分 截断 ， 输 出 其 整数 部 分 作为 结果 。 此 外 ， 用 %EVAL 进 行 算术 运算 的 结果 仍然 为 字符 型 。 用 %EVAL 进 行 逻辑 运算 的 结果 
( 真 ) 或 者 0 ( 假 ) 。 下 面 的 代码 举例 说 明 如 何 使 用 %EVAL 进 行 算术 与 逻辑 运算 


一 


为 


例 7.8: 安 函 数 %EVAL 的 使 用 。 








示例 代码 如 下 : 
Sput eval (2+2) = geval (2+2) 7 

sput eval (7/4) = Seval (7/4); 

sput eval(10 gt 2) = %eval(10 gt 2); 

Sput eval(2+2.1) = av 21 2 TT} 








不 是 整数 ， 


上 述 第 2 个 %EVAL 函 数 中 算术 表达 式 的 结 

数 。 日 志 中 的 具体 信息 如 图 7.8 所 示 。 
388 Sput eval({t2+2) = 党 局 

eyal{f2+2) = 4 
381 旋 put a 
Eval(7/4) = 
382 多 put ee qt 2) 
eval{( gd oqt 2) = 1 
383 党 pu eval(2+2.1}) = %e 


ERROR : 竺 舌 要 数值 操作 数 的 


evyalt2+2.1) = 


FAITE 


日 志 中 %EVAL 函 数 不 计 算 表 达 式 “2+2.1 


因此 输出 其 整数 部 分 作为 结果 ; 第 3 个 %EVAL 遂 数 为 逻辑 表达 式 ， 输 出 结果 为 1 ( 真 ) 


， 解 决 的 办 法 是 使 用 %SYSEVALF 函 数 。 


; 最 后 一 个 表达 式 不 是 算术 表达 式 ， 因 此 不 适用 %EVAL 函 


alft2+2): 


l(ah); 


= eual(10 gt 2); 


val(2t2. 
A Ea 


8 
加 站 二 %IF 杀 件 中 发 现 宇 符 操 作 数 。 条 件 是 : 2+2.1 





图 7.8 数 %EVAL 的 使 用 


宏 苑 


%SYSEVALF 函 数 是 唯一 能 处 理 包含 浮 点 或 者 是 缺失 值 的 安 函 数 ， 其 使 用 语法 如 下 : 





$$SYS] 





EVALF 〈 表 达 式 <， 转换 格式 >) 


其 中 : 

" 表达 式 是 算术 或 者 逻辑 表达 式 。 
“ 转换 格式 是 函 雪 
算 


例 7.9: 在 %SYSEVALF 中 指定 不 同 的 函数 选项 进行 计算 。 


示例 代码 如 下 : 


选项 。 加 上 转换 格式 ， 用 户 可 以 对 %SYSEVALF 返 回 的 结果 进一步 转化 ， 常 见 的 转换 格式 有 布尔 型 (BOOLEAN) 、 


取 整 (INTEGER) 、 取 上 整 (CEIL) 和 取 下 整 (FLOOR) 。 





a= 2; 
本 -四 二 2。 
t The a with SYS] 
sput BOOLEAN conversion: $syseval 











EVALF is: Ssysevalf(&a + &b); 


f(l&a + &b, boolean); 




































































Sput INTEGER conversion: %sysevalf(&a + &b, integer); 
sput CEIL conversion: Ssysevalf(&a +&b, ceil); 
Sput FLOOR conversion: %sysevalf(&a +&b, floor); 


在 日 志 中 输出 结果 如 图 7.9 所 示 。 


D4 
The Fesuyult 
| 
BOOLEAN conversions: 
bs 
INTEGER converslion: 
be 
CEIL conversion: 
Dr 
FLOOR conversion: 


5 


7.3.3 ”常见 的 处 理 文本 的 安 函 数 


的 安 区 


现在 介绍 几 个 常见 的 用 于 文本 处 理 的 宏 函 数 。 


ANNA 和 


%SUBSTR 函 数 用 于 从 一 个 字符 串 中 选取 指定 的 部 分 子 字 符 








%$SUBSTR〔 变 量 ， 开 始 位 置 <, 长 度 >) 








Sput INTEGER conversion: %sysevalft{&a + &b, 


put CEIL conversion: %sysevalf{(Ra +&b, 





*put The result with SYSEUNLF 1s: %sysevalfl(lfa + Bb); 
with SYSEUVALF 1is: 
tput BOOLEAN conversion: Ssysevalflt&a + 8h, booleany:; 


.1 


1 
integery; 
用 


Cell): 


Sput FLOOR conversions dsysevalftta Gb, floorys 
nn 


图 7.9 ”还 数 %SYSEVAILF 及 其 选项 


， 其 用 法 如 下 : 





变量 直接 定义 得 到 ， 也 可 


* 开始 位 置 是 要 提取 的 子 字符 串 在 原始 字符 串 中 的 起 始 位 置 ， 其 值 应 该 是 一 个 正 整 


这 个 整数 可 


那么 生成 的 台 


. 长 度 是 一 个 可 选项 ， 其 值 也 是 一 个 正 整数 。 同 样 ， 
的 字符 串 ; 如 果 长 度 大 于 从 指定 位 置 到 结束 的 字符 总 数 ， 


以 通过 表达 式 的 运算 得 出 。 


数 ， 可 以 是 菜 些 函数 与 表达 式 的 运算 结果 。 


以 是 某 些 函数 与 表达 式 的 运算 结果 ， 代 表 要 选取 的 子 字 符 串 的 长 度 。 当 该 长 度 值 缺 省 时 ，SAS 会 截取 从 指定 位 置 的 字符 开始 至 结束 之 间 


告 果 虽 一 样 ， 但 SAS 会 在 日 志 中 生成 警告 信息 。 


文本 中 常常 含有 一 些 特 殊 符号 与 关键 字 ， 这 需要 做 特殊 处 理 。 例 如 “AND” 在 宏 语 言 里 是 一 个 逻辑 符号 ， 如 果 不 加 以 处 理 ， 则 试图 将 “A AND B” 赋值 给 一 个 宏 变 量 是 个 语法 错误 。 宏 函数 %STR 可 以 
用 来 处 理 类 似 情况 ， 其 使 用 语法 如 下 : 


gsSTR (文本 ) 


其 中 ， 文 本 可 包含 以 下 符号 与 关键 字 : 








;+—-*/ ,<>= blank LT EQ GT AND OR NOT LE GE NE 

















需要 注意 的 是 ， 若 文本 开始 或 结尾 处 包含 空格 ， 那 么 %STR 消 数 不 会 删 去 这 些 空格 。 


一 般 情况 下 ，SAsS 认 为 引号 与 括号 是 成 对 出 现 的 。 因 此 ， 若 文本 中 需要 含有 不 成 对 的 引号 或 括号 ， 则 需要 做 特殊 处 理 。 处 理 方法 之 一 是 使 用 ”%STR 函 数 ， 并 在 文本 中 不 成 对 的 引号 或 者 括号 前 加 上 一 个 百 
分 号 ， 具 体 见 例 7.10。 


例 7.10: 在 不 同 的 情形 下 调用 %STR 消 数 。 




















示例 代码 如 下 : 

$let textl1 = %str(A AND B); 

Slet text2 = $str(Joan%s's Report); 
Sput textl:&textl; 

Sput text2:&text2; 




















日 志 中 显示 的 信息 如 图 7.10 所 示 。 


在 宏 语言 环境 中 ， 符 号 “&” 表 示 宏 解析 的 开始 ， 与 此 同时 ，“&” 也 是 文本 中 常见 的 符号 之 一 。 因 此 ， 若 文本 中 含有 “&” ， 则 需要 特殊 处 理 。 这 种 情况 下 ， 可 以 使 用 %NRSTR 国 数 (NR 是 单词 NOT 
RESOLVE 的 缩写 ) 。 


例 7.11: 宏 遂 数 %STR 与 %NRSTR 的 比较 。 


示例 代码 如 下 : 


$let Period = $str (Jan&Feb); 
sput Period resolved to :&Period; 





$let Period = Snrstr (Jan&Feb); 
Sput Peorid resolved to :&Period; 











日 志 中 显示 的 信息 如 图 7.11 所 示 。 


B3 %put text1: texti1 
ext1: A AND 


Bh put text2: Etext2 
ext2: Joan’'s Report 





图 7.10 “%STR 函数 的 使 用 


WARNING: 没有 解析 符号 引用 FEB。 


Period resolved to : JankFeb 


981 let Perliod = énrstr(JantFeb); 
92 put Peorid resolved to : &Period :> 
Peorid resolvued to : JankFeb 





图 7.11 对 比 函 数 %STR 与 Y%NRSTR 


可 以 看 出 ， 在 语句 “%let Period=%str (Jan&Feb) ; ”中 ，SAS 认 为 “&"” 后 面 的 字符 串 “Feb” 是 一 个 变量 ， 试 图 解析 该 变量 ， 从 而 产生 警告 信息 。 使 用 函数 %NRSTR 后 ，“&” 符 号 不 会 被 解 
析 ， 宏 函数 Period 被 赋值 为 “Jan&Feb” 


表 7.3 列 举 了 其 他 一 些 处 理 字符 的 安 函 数 ， 具 体 语法 选项 可 以 查阅 As 帮助 文档 。 


表 7.3 常见 的 用 于 处 理 字 符 的 宏 函 数 


宏 了 水 数 结 于 
%QUPCASE 小 写 转 大 写 ， 有 节 些 特殊 符号 不 处 理 %qupcase (&a) CA 
pw” a s % length(text) 
返回 变量 的 长 度 ， 如 果 变 量 是 一 个 缺失 
20LENGTH EA ec 4 
值 ， 返 回 值 为 0 

1.%index(name is. me) 例 1 结果 ，3 

%INDEX 、 | 二 四 
2.%0index(name is. k) 例 2 结果 : 0 
%let a =one: %let b=two: 

%SCAN 抽取 字符 串 %let c=%nrstr(&a*&b): one 


%oput Wscan(&ce, 1, *): 
%jlet a =one: %let b=two:; 
%QSCAN 抽取 字符 串 ， 不 解析 特殊 %let c=%nrstr(&a* &b): Ca 
%oput %0qscan(&cc,， 1, *): 
例 7.10 中 的 text2， 也 可 以 用 
用 %BQUOTE 实现 : Joan's report 


2%bquote(Joan's report): 


和 %STR 作用 相同 ， 不 同 的 是 %BQUOTE 
在 程 夺 执 行 阶 段 处 理 


%BQUOTE 





本 节 介绍 宏 语 言 的 另外 一 个 重要 组 成 部 分 : 宏 程 序 ， 简 称 宏 (macro) 。 利 用 宏 ， 我 们 可 以 实现 代码 的 结构 化 和 重复 使 用 。 


7.4.1 宏 的 定义 与 调用 


一 个 宏 是 指 以 %MACRO 开 始 ， 以 %MEND 结 束 的 一 段 宏文 本 ， 其 使 用 语法 如 下 : 





%MACRO 宏 名 称 
宏文 本 
gsMEND < 宏 名 称 >; 





其 中 ， 宏 文本 可 以 是 : 
“ 任何 文字 。 
SAS 语 和 句 、 表达 式 。 


. 整 段 SAS 程 序 ， 如 DATA 步 和 SQL 程序 。 


需要 指出 的 是 ，%MEND 后 面 的 宏 名 称 是 可 选 的 ， 但 是 分 号 是 必须 有 的 。 此 外 ， 宏 名 称 的 命名 规则 遵循 SAS 变 量 的 命名 规则 ， 一 些 关 键 字 、 词 不 能 使 用 ， 比 如 ，LEFT、SCAN、 
IFhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/OEBPS/Text/...THEN 及 ELSE 等 。 一 般 情况 下 ， 用 户 可 以 根据 宏 的 作用 来 命名 ， 这 样 更 


直观 、 易 懂 ， 也 不 易 与 关键 字 、 词 重复 。 


宏 定义 完 后 ， 就 可 以 被 调用 了 。 调 用 方法 如 下 : 





s 宏 名 称 


调用 宏 时 ， 宏 名 称 后 不 需要 加 分 号 。 此 外 ， 宏 可 以 在 SAS 程 序 中 除数 据 行 以 外 的 任何 地 方 被 调用 。 例 如 ， 假 设 一 个 程序 中 多 处 要 用 到 当前 系统 时 间 ， 则 可 以 考虑 写 一 个 调用 时 间 的 宏 。 代 码 如 下 : 





Smacro time:; 
The current time is %sysfunc (time(),timeampm.); 





smend time; 


其 他 程序 代码 片段 


其 他 程序 代码 片段 2 


$time 








对 于 那些 仅 在 宏 内 部 有 效 和 可 以 使 用 的 变量 ,我 们 称 之 为 局 部 宏 变 量 ; 反之， 可 以 在 程序 中 除数 据 行 以 外 的 任何 地 方 引用 的 宏 变 量 则 称 为 全 局 宏 变 量 


7.4.2 宏 的 存储 


1. 宏 的 编译 


用 户 在 提交 一 个 宏 的 定义 ， 且 经 宏 处 理 器 编译 无 误 后 ，SAS 会 加 以 存储 。 用 户 可 以 使 用 系统 选项 MCOMPILENOTE 在 日 志 中 显示 编译 信息 ， 其 使 用 语法 如 下 : 











OPTIONS MCOMPILENOTE = ALL |NONE; 

















其 中 ， 系 统 默 认 的 值 为 NONE。 


例 7.12: 使 用 选项 MCOMPILENOTE 重 新 提交 宏 TIME 的 定义 。 


示例 代码 如 下 : 








OPTIONS MCOMPILENOTE = ALL; 
Smacro time; 

sput The current time is %sysfunc (time(),timeampm.); 
smend time; 























在 日 志 中 显示 的 信息 如 图 7.12 所 示 。 





图 7.12 MCOMPILENOTE 选 项 的 使 用 


2. 宏 的 存储 


在 上 一 节 中 ， 定 义 了 一 个 叫 time 的 安 。 经 过 编译 、 运 行 后 ， 在 SAS EXPLORER 下 的 Work 逻 辑 库 里 面 ， 用 户 可 以 看 到 一 个 名 为 Sasmacr 的 文件 夹 。 双 击 该 文件 夹 ， 可 以 看 到 一 个 名 为 Time 的 文件 ， 这 正 
是 我 们 刚刚 定义 的 宏 time， 如 图 7.13 所 示 。 








图 7.13 ”定义 的 宏 time 


默认 情况 下 ， 用 户 定义 的 所 有 的 宏 都 会 被 保存 在 Work 逻 辑 库 里 的 Sasmacr 内 。 由 于 在 SAS 退 出 时 Work 逻 辑 库 里 的 文件 都 会 被 删除 ， 因 此 ， 如 果 希 望 将 宏 永久 保存 以 便 将 来 使 用 ， 则 需要 将 宏 存 储 到 
Work 逻 辑 库 以 外 的 地 方 。 


安 的 存储 一 般 要 经 过 以 下 步骤 

1) 指定 或 者 定义 一 个 SAs 库 ， 用 来 存储 宏 。 
2) 设置 系统 选项 MSTORED。 

3) 定义 宏 的 同时 设 定 存储 选项 。 


宏 的 储存 的 具体 语法 如 下 : 




















库 名 称 ; 





二 
Se 





OPTIONS MSTORED SASMSTORE j 户 指定 逻辑 库 
%$MACRO 宏 名 称 /STORE SOURC: 
宏 具体 内 容 

sMEND 安 名 称 ， 


























| 
AN。 
































其 中 : 
* MSTORED 用 于 开启 宏 存储 的 系统 选项 。 
SASMSTORE 指 定 宏 保存 的 库 。 
* STORE SOURCE 表 示 定 义 的 同时 存储 该 宏 。 


以 下 代码 定义 了 逻辑 库 store， 在 定义 宏 time 的 同时 ， 会 把 该 安保 存在 store 库 里 


libname store 'c:\ch7'; 
options mstored sasmstore = store; 
smacro time/store source; 
sput The current time is %sysfunc (time(),timeampm.); 
smend time; 











提交 上 述 代码 ， 关 闭 SAS 会 话 ， 用 户 可 以 在 c: \ch7 里 看 到 一 个 名 为 sasmacr.sas7bcat 的 文件 ， 宏 time 已 经 被 永久 性 保存 。 


3. 调 用 已 存储 的 宏 


默认 情况 下 ， 当 用 户 调用 一 个 宏 时 ，SAs 仅 在 Work 逻 辑 库 里 的 Work.9asmacr 中 进行 搜索 。 因 此 ， 在 调用 已 经 保存 的 安 时 ， 用 户 需要 指定 该 安 所 在 的 逻辑 库 。 例 如 ， 我 们 要 在 另外 一 个 SAs 会 话 里 调用 
保存 在 c:\ch7 的 宏 ， 代 码 如 下 : 
lipname store'c:\ch7'; 


options mstored sasmstore = store; 
$time 


在 上 述 代 码 中 ， 首 先 把 库 store 指 向 了 操作 系统 中 保存 宏 的 具体 物理 位 置 ， 接 着 ，OPTIONS 选 项 指定 了 搜索 库 为 store， 这 样 就 可 以 调用 宏 time 了 。 


7.4.3” 宏 的 参数 


在 7.3.3 节 中 介绍 了 一 些 常见 的 处 理 文 本 的 宏 函 数 ， 这 些 函 数 都 含有 输入 参数 。 在 宏 语言 中 ， 用 户 可 以 自己 定义 宏 函 数 ， 即 带 参 数 的 安 。 例 如 ， 我 们 需要 对 一 个 数据 集 data1 中 的 变量 var1 做 分 析 ， 代 码 
如 下 : 

proc means data = datal; 

Var varl; 

假设 现在 要 对 10 个 类 似 的 数据 集 做 类 似 的 分 析 ， 这 10 个 不 同 的 数据 集中 需要 分 析 的 变量 名 称 也 不 一 样 。 可 想 而 知 ， 该 任务 涉及 上 述 代 码 的 重复 使 用 ， 这 时 就 可 以 考虑 用 宏 语 言 来 编程 。 由 于 每 次 代码 中 
阴影 部 分 的 内 容 都 不 同 ， 每 次 调用 宏 calc 时 ， 都 希望 能 够 把 阴影 部 分 的 内 容 ( 即 当前 数据 名 和 变量 名 ) 传递 给 宏 calc。 在 这 种 情况 下 ， 就 可 以 用 带 参 数 的 宏 来 实现 。 具 体 代 码 如 下 : 


smacro calcl(dsn, vars); 
proc means data = &dsn; 
Var &vars; 
run; 
smend calc; 


上 述 宏 calc 含 有 两 个 参数 : dsn 和 vars。 当 SAS 宏 处 理 器 编译 到 带 参数 的 宏 时 ， 会 自动 生成 相应 名 称 的 局 部 宏 变 量 。 上 例 中 生成 的 两 个 局 部 宏 变量 分 别 是 : dsn 和 vars。 正 因为 如 此 ， 我 们 在 PROC 
MEANS 的 内 部 才 可 以 解析 这 两 个 宏 变 量 。 


调用 的 过 程 如 下 : 


$let dsn = datal; 
$let vars= varl; 
scalc (datal, varl) 











宏 的 参数 可 以 分 为 以 下 3 类 : 


关键 词 参数 


. 混合 型 参数 〈 即 以 上 两 种 类 型 的 混合 ) 


1. 安 中 固定 位 置 参数 的 定义 与 使 用 


宏 中 定义 固定 位 置 参 数 的 方法 如 下 : 





$MACRO 宏 名 称 〈 人 参数 1， 人 参数 2， ...) ， 
宏文 本 
8%MEND < 宏 名 称 > 





其 中 ， 多 个 参数 之 间 用 逗号 隔 开 ， 每 个 参数 名 也 应 该 符合 9As 对 变量 名 的 要 求 。 参 数列 中 提 到 的 参数 可 以 在 宏文 本 中 以 宏 变 量 的 形式 加 以 引用 。 


例 7.13: 建立 一 个 安 ， 对 数据 集 sashelp.orsales 中 在 既定 时 间 段 内 的 订单 数 按照 生产 线 (product line) 进行 统计 。 以 下 的 宏 使 用 PROC FREQ 实 现 这 一 任务 ， 并 会 将 table 语 句 中 的 选项 和 时 间 段 的 开 
始 与 结束 作为 安 的 参数 来 调用 。 


示例 代码 如 下 : 


Smacro count (opts, start, stop); 
proc fred data = sashelp.orsales; 
where year between &start and &stop; 
table product line/g&opts; 
titlel "Order Between&start and&stop ™; 











PUTS 
smend count; 
scount (nocum, 1999, 2000) 


输出 结果 如 图 7.14 所 示 。 


OQrder 














Product Line 






































图 7.14 ” 宏 COUNT 的 输出 结果 


2. 宏 中 关键 词 参 数 的 定义 与 使 用 


关键 词 参 数 给 每 个 参数 都 会 确定 一 个 名 称 和 默认 值 ， 在 宏 中 该 其 类 型 的 参数 方法 如 下 : 





SMACRO 宏 名 称 (参数 1= 值 1， 参数 2= 值 2， ...) 7 
宏文 本 
8%MEND < 宏 名 称 > 





其 中 ， 多 个 参数 之 间 用 逗号 隔 开 ， 参 数 名 的 命名 规则 应 该 符合 SAs 对 变量 名 的 要 求 ， 每 个 参数 名 后 面 用 等 号 给 出 参数 默认 值 (允许 使 用 空 值 ) 。 参 数列 中 提 到 的 参数 可 以 作为 宏文 本 中 的 宏 变 量 加 以 引 


调用 带 关键 词 参数 的 宏 的 语法 如 下 ; 





g% 宏 名 称 〈 人 参数 1= 值 1， 人 参数 2= 值 2， .…) 


例 7.14: 将 例 7.13 中 安 的 定位 置 参数 改 为 带 天 键 词 参数 。 


示例 代码 如 下 : 





smacro count (opts= ， start=1999, Stop=2000) ， 
proc freq data = sashelp.orsales; 
where year between &start and &stop; 
table product line/g&opts; 
titlel "Order between &start and &stop"; 











run; 
smend count; 





以 下 程序 调用 了 上 述 带 关 键 词 参 数 的 宏 : 





$count () 
$count (opts = nocumnopercent) 
$count (stop=2000, opts = nocum) 





第 一 次 调用 宏 count， 不 带 任何 参数 ， 系 统 调 用 默认 值 ， 即 : opts 为 空 、start 值 为 “1999”、stop 为 “2000”。 输 出 结果 如 图 7.15 所 示 。 


第 二 次 调用 宏 ， 只 给 定 了 一 个 参数 的 值 ， 即 opts 的 值 ， 为 Nocumnopercent。 调 用 宏 时 ， 系 统 使 用 了 该 参数 的 值 ， 而 非 默 认 值 ， 对 于 其 余 两 个 为 给 定 的 参数 值 ， 宏 采用 的 默认 值 。 输 出 结果 如 图 7.16 所 


第 三 次 调用 宏 ， 仪 给 定 了 两 个 参数 值 ， 且 修改 了 宏 参 数 的 位 置 ， 这 在 带 关 键 词 参数 的 宏 中 是 允许 的 ， 其 输出 结果 如 图 7.17 所 示 。 


Order between 1999 and 2000 
FREQ 过 程 


Product Line 

















SPorts 168| 3 扣 遇 | 本 6 10000 


图 7.15 ”使 用 不 同 参数 时 宏 COUNT 的 输出 结果 (一) 





图 7.16 ”使 用 不 同 参数 时 宏 COUNT 的 输出 结果 (二 ) 




















图 7.17 使 用 不 同 参数 时 宏 COUNT 的 输出 结果 (三) 
3. 宏 中 混合 型 参数 的 定义 与 使 用 
所 谓 的 混合 型 参数 指 的 是 宏 参 数 中 既 含 有 定位 置 型 的 参数 ， 也 含有 带 关 键 词 的 参数 ， 其 语法 如 下 : 


$MACRO 宏 名 称 〈( 参 数 1， 参 数 2，..., 参数 K， 人 参数 K+1= 值 1， 人 参数 K+2= 值 2， .…) :; 
宏文 本 
SsMEND < 宏 名 称 > 





其 中 ， 参 数 名 之 间 用 逗号 隔 开 ， 参 数 名 的 要 求 与 SAs 对 变量 名 的 要 求 一 致 ， 所 有 定位 置 型 参数 (不 带 等 号 ) 必须 在 关键 词 参数 ( 带 等 号 ) 之 前 。 
例 7.15: 修改 例 7.14 中 的 安 ， 使 其 成 为 带 混合 型 参数 的 安 。 


示例 代码 如 下 : 





Smacro count (opts , start=1999, Stop=2000) ， 
proc freq data = sashelp.orsales; 
Where year between &start and &stop; 
table product line/&opts; 
titlel "Order between &start and &stop"; 











run; 
smend count; 
$count (2000, nocum, 2001) 
$count (nocum, start = 2000, stop = 2001) 
$count (, start = 2000, stop = 2001) 











第 一 次 调用 该 宏 ， 出 现 了 错误 ， 原因 在 于 调用 该 宏 时 ， 定 位 置 型 参数 opt 的 值 在 关键 词 参 数 的 后 面 ， 日 志 信 息 如 图 7.18 所 示 。 


ERROR: 执 到 的 位 置 参 数 多 于 定义 的 个 数 。 





图 7.18” 带 混合 型 参数 宏 COUNT 的 输出 结果 (一) 
第 二 次 调用 时 ， 调 整 了 顺序 ， 结 果 如 图 7.19 所 示 。 


第 三 次 调用 时 ， 定 位 置 型 参数 为 空 ， 输 出 结果 如 图 7.20 所 示 。 


Order between 2000 and 2001 








Product Line 
Product Line 各 可 | 白 分 比 
19.30 





144 | 31.58 
12.28 








图 7.19” 带 混合 型 参数 宏 COUNT 的 输出 结果 (二) 


Order between 2000 and 2001 


FREQ 过 程 





Product Line 


Product_Line 独 财 白 分 比 
Childraen 8 ”19. 加 
Clothes & Sho 144 4341.58 
Outdoors 6 12.28 
Sports 168| 36.84| 456 | 100.00 








图 7.20” 带 混合 型 参数 宏 COUNT 的 输出 结果 (三) 


7.4.4” 宏 与 宏 变 量 


1. 全 局 宏 变量 与 局 部 宏 变 量 


在 7.4.1 节 末尾 ， 提 到 了 全 局 宏 变 量 和 局 部 宏 变 量 的 定义 。 前 面 介 绍 的 SAS 系 统 自动 生成 的 宏 变 量 (如 SYSDATE 和 SYSDAY 等 )， 均 属于 全 局 宏 变 量 ， 而 例 7.15 中 的 opt、start、stop 等 则 属于 局 部 宏 变 


例 7.16: 定义 一 个 宏 变量 i， 并 且 试 图 在 宏 外 部 调用 该 变量 。 


示例 代码 如 下 : 


smacro NullMacro; 


Slet i = 1; 
sput inside macro i = &i; 





smend NullMacro; 
$sNullMacro; 
sput outside macro i = &i; 





日 志 中 显示 的 信息 如 图 7.21 所 示 。 


出 错 原因 是 宏 变 量 | 只 人 存在 于 宏 NullMacro 内 部 。 当 然 ， 用 户 也 可 以 显 式 地 声明 全 局 宏 变量 与 局 部 宏 变量 ， 其 使 用 语法 如 下 : 





sGLOBAL 变量 1 变量 2 变量 N; 
sLOCAL 变量 1 变量 2 变量 N; 























其 中 ， 变 量 可 以 是 由 字符 表达 式 生成 的 。 
例 7.17: 修改 例 7.16 中 宏 变 量 的 定义 ， 使 其 能 在 安 外 部 使 用 。 


此 处 需要 利用 %GLOBAL 语 句 来 定义 全 局 宏 变 量 。 示 例 代码 如 下 : 


$macro Nul] [Macro; 





sput inside macro i = &i; 


smend NullMacro; 
$sNullMacro; 
sput outside macro i = &i; 








日 志 中 显示 的 信息 如 图 7.22 所 示 。 


1nslde macro 1 
2 put outside macro 1 = &1:; 


WARNING: 没有 解析 从 号 引用 I。 


nDUtside macro 1 = 





图 7.21 在 宏 外 部 调用 局 部 宏 变 量 


1nslde macro 1 


569 ‘put outside macro 1 = 8l: 
Dutside macro 1 





图 7.22 ”使 用 %GLOBAL 定 义 全 局 宏 变 量 
2. 全 局 符号 表 与 局 部 符号 表 


SAS 的 全 局 宏 变 量 与 局 部 宏 变 量 分 别 存 储 于 全 局 宏 变 量 表 (Global Symbol Tables) 与 局 部 宏 变量 表 (Local Symbol Tables) 中 。 全 局 宏 变 量 表 创 建 于 SAS 启 动 时 。 需 要 注意 的 是 ， 对 每 个 宏 ，SAS 都 
会 生成 一 个 对 应 该 宏 的 局 部 宏 变 量 表 。 换 而 言 之 ， 系 统 可 能 包含 多 个 局 部 变量 表 。 不 同 的 局 部 宏 变 量 表 中 很 能 含有 相同 名 称 的 宏 变 量 


3. 宏 变量 值 的 更 新 与 解析 


由 于 局 部 宏 变 量 表 和 全 局 宏 变量 表 可 能 含有 相同 名 称 的 宏 变 量 ， 因 此 使 用 %LET 语 句 对 这 些 宏 变 量 进行 赋值 时 ， 就 需要 知道 SAS 对 变量 的 处 理 规 则 。 以 下 分 两 种 情形 讨论 处 理 规则 : 在 宏 外 部 使 用 %LET 
语句 和 在 宏 内 部 使 用 %LET 语 句 。 


当 宏 处 理 器 在 宏 定义 的 外 部 遇 到 创建 (%LET 语 句 ) 与 调用 语句 (& 宏 变量 名 ) 时 ， 宏 变量 处 理 器 仪 检查 全 局 宏 变量 表 ， 并 根据 全 局 宏 变量 表决 定 是 创建 、 更 新 ， 还 是 解析 。 
当 宏 处 理 器 在 宏 内 部 遇 到 一 个 %LET 语 句 时 ， 如 以 下 语句 : 


slet mvar = 值 1 


宏 处 理 器 按照 以 下 顺序 处 理 宏 变量 值 : 

1) 检查 局 部 宏 变 量 表 ， 看 mvar 是 否 存 在 于 局 部 宏 变 量 表 中 。 如 果 存 在 ， 更 新 其 值 ， 若 不 存在 ， 进 行 下 一 步 。 
2) 检查 全 局 宏 变量 表 ， 看 mvar 是 否 存 在 与 全 局 宏 变 量 表 中 。 若 存在 ， 更 新 其 值 ， 若 不 存在 ,进行 下 一 步 。 
3) 在 局 部 宏 变量 表 中 创建 实 变量 并 赋值 。 


类 似 的 ， 当 安 处 理 遇 到 如 下 调用 安 变量 的 语句 时 : 


&mVvar 


宏 处 理 器 会 先 检查 局 部 宏 变 量 表 ， 如 果 mvar 在 局 部 宏 变 量 表 中 ， 则 将 该 值 作为 解析 值 ， 否则 ， 宏 处 理 器 检查 全 局 宏 变 量 表 ， 若 mvar 存 在 于 全 局 宏 变量 表 中 ， 则 将 表 中 该 变量 的 值 作为 解析 值 ， 若 不 存在 ， 
宏 处 理 器 在 日 志 中 生成 该 变量 未 被 解析 的 警告 信息 、。 


例 7.18: 在 代码 中 定义 两 个 安 ，outer 和 inner， 且 在 第 3 行 、 第 8 行 和 第 10 行 分 别 使 用 %LET 语 句 。 


示例 代码 如 下 : 





smacro outer; 
$local x; 
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smend inner ， 
。 台 Let x = 0; 
11. %outer,; 








下 面 来 详细 分 析 %LET 语 句 对 宏 变 量 值 的 更 新 过 程 : 


1) 在 第 1~5 行 、 第 6~ 9 行 代码 中 分 别 定义 了 宏 outer 和 宏 inner。 
2) 当 SAS 宏 处 理 器 处 理 到 第 10 行 时 ， 宏 处 理 器 仅 搜 索 全 局 宏 变 量 表 ， 表 中 未 包含 名 为 x 的 变量 ， 宏 处 理 器 在 表 中 创建 宏 变 量 x， 赋 值 为 0， 具 体 如 表 7.4 所 示 。 
3) 在 第 11 行 ， 宏 处 理 调用 宏 outer， 也 就 是 执行 第 1~5 行 。 其 中 第 4 行为 调用 宏 inner， 所 以 接 下 来 的 执行 顺序 为 : 第 2~ 3 行 一 第 6~ 9 行 一 第 5 行 。 


4) 第 2 行 显 式 声 明了 一 个 局 部 宏 变 量 x， 宏 处 理 器 创建 局 部 宏 变 量 表 ， 称 之 为 outer 局 部 宏 变 量 表 ， 并 在 表 中 创建 实 变量 x。 接 着 ,在 第 3 行 ， 将 宏 变量 x 赋值 为 1， 宏 处 理 器 首先 搜索 outer 局 部 宏 变量 
表 ， 该 表 中 含有 x， 则 将 其 值 赋 为 1。 赋 值 结 束 后 ，outer 局 部 宏 变 量 表 如 表 7.5 所 示 。 








表 7.5 outet 局 部 宏 变 量 表 


outer 局 部 宏 变 量 表 








5) 宏 处 理 器 执行 第 6~9 行 。 
6) 在 第 7 行 中 ，local 语 句 声 明了 一 个 局 部 宏 变 量 ， 宏 处 理 器 创建 了 一 个 inner 局 部 宏 变 量 表 ， 如 表 7.6 所 示 。 
7) 执行 第 8 行 ， 解析 x 的 值 。 宏 处 理 器 首先 搜寻 inner 局 部 宏 变量 表 ， 接 着 搜寻 outer 局 部 宏 变 量 表 (这 时 还 处 在 宏 outer 内 部 ) ， 其 包含 变量 x， 将 该 x 的 值 1 赋 给 了 y， 如 表 7.7 所 示 。 


表 7.6 innet 局 部 宏 变 量 表 


inner 局 部 宏 变 量 表 








表 7.7 更 新 后 的 innet 局 部 宏 变 量 表 


inner 局 部 宏 变 量 表 








8) 第 9 行 ，inner 宏 结束 ， 删 除 iInner 局 部 宏 变 量 


9) 执行 第 5 行 ，outer 宏 结束 ， 删 除 outer 局 部 变量 表 。 


7.5 宏 语 言 与 其 他 SASs 语 言 
宏 语言 作为 SAS 语 言 的 一 部 分 ， 通 常 与 SAS 语 言 的 其 他 部 分 一 起 使 用 。 本 节 将 介绍 宏 语言 与 DATA 步 、 宏 语言 与 SQL 语言 之 间 的 交互 使 用 。 不 过 ， 在 此 之 前 ， 先 要 介绍 SAS 安 语言 的 编译 过 程 。 
7.5.1 ” 宏 语 言 的 编译 过 程 


一 段 SAS 程 序 可 以 是 以 下 一 种 或 若干 种 的 组 合 : 
. DATA 步 和 PROC 步 


. 全 局 语句 


当 用 户 提 交 一 段 SAS 程 序 后 ，SAS 执 行 以 下 步骤 : 

1) 在 内 存 中 创建 输入 栈 (Input stack) 用 来 存储 用 户 提交 的 代码 。 

2) SAS 的 组 件 之 一 文字 扫描 器 (Word Scanner) 对 输入 栈 中 的 代码 进行 从 上 至 下 、 从 左 到 右 的 扫描 ， 在 扫描 过 程 中 ， 

a. 若 扫描 到 分 号 ， 则 编译 已 扫描 的 内 容 ， 如 果 出 错 ， 在 日 志 中 显示 相关 信息 ， 否 则 继续 扫描 ; 

b. 如 果 扫 描 到 符号 “&” 和 “%”， 调 用 宏 处 理 器 (Macro Processor) 完成 对 “&” 和 “%” 的 具体 操作 ， 返 回 继续 扫 摘 ; 
.如果 扫 摘 到 边界 (如 RUN 语 句 、 另 一 个 DATA 步 或 PROC 步 ) ， 则 进行 下 一 步 。 

3) 执行 已 编译 的 内 容 ， 回 到 第 1 步 ， 从 Input Stack 中 读 取 剩余 的 代码 。 


从 上 面 的 步骤 可 以 看 出 SAs 对 宏 语 言 的 处 理 有 着 优先 级 : 在 第 2 步 的 b 阶 段 ，SAs 完 成 宏 的 处 理 后 ， 返 回 编译 ， 最 后 才 执行 不 含 宏 语言 的 其 他 编译 无 误 的 代码 。 然 而 ， 在 处 理 实 际 问题 的 过 程 中 往往 需 
在 执行 阶段 生成 安 变量 ， 具 体 见 例 7.19。 


在 2.1.5 节 中 ， 我 们 提 到 注释 的 基本 方法 有 两 种 : “* 消 息 ;，” 和 “/* 消 息 */”。 在 宏 语言 环境 中 ， 前 者 不 起 作用 了 ， 但 后 者 仍然 适用 。 此 外 ， 宏 语言 中 的 注释 还 可 以 用 “%* 肖 息 ”的 方法 。 推 荐 使 用 “/* 
消息 ”” 来 注释 。 例 如 ， 以 下 代码 第 3 行 的 注释 不 起 作用 ， 第 4 行 与 第 5 行 的 注释 起 作用 ， 因 此 日 志 中 输出 a=4。 


smacro comment; 


*%let a =4; 
Slet a=2; */ 

s*l1et a=3; 

Sput a = &a; 

smend; 

$comment 
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例 7.19: 数据 集 order fact 包 含 了 订单 时 间 (order date) 、 订 单 类 型 (order type) 、 订 单数 量 (quantity) 以 及 价格 (retail_price) 。 根 据 数据 集 order fact 建 立 一 个 新 的 数据 集 orders， 并 根据 
输入 的 年 份 与 月 份 ， 统 计 订 单 类 型 为 3 的 总 数 ， 如 果 该 时 间 段 内 订单 类 型 为 3 的 总 数 为 0， 那 么 输出 数据 集 orders 的 标题 为 “No Type 3Order”， 否 则 ， 输 出 标题 “Some Type 3Order”。 示 例 代码 如 下 : 





data order fact; 
informat order date ddmmyy10.; 
input order date order type quantity retail price; 
datalines; 
05/01/20] 
07/02/201 
07/02/20] 
09/02/201 
16/02/20] 
. 27/02/20] 
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let month = 2; 
et year = 2013; 
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. data orders; 

keep order date order type quantity retail price; 

set order fact end=final; 

where year (orqer date)=&year and month (order date)=&month; 
205 if order type=3 then Number+l; 

21. if final then do; 

22. put Number=; 

23. if Number=0 thendo; 

24. $let foot= No Type 3 Order; 






























































e do; 
t foot= Some Type 3 Order; 
2 end; 

29. end; 

30. Lun: 

31. proc print data=orders; 

32. format order date mmddyy10.; 

33. title "Order in &year-&month"; 

34. footnote "“&foot"; 

35. run; 























提交 上 述 代 码 ， 相 应 输出 结果 如 图 7.23 所 示 。 


Order in 2013-2 


Obs order date | order type quantity | retall 万 站 所 


1 QW072013 2 2 b5b.6 
| QD 2013 1 之 129.0 
了 | O09/2013 1 2 36.2 
入 U1o/2013 py 1 :9.4 
5 1 


Da 2013 洒 192.0 


Some Type 3 Order 


图 7.23 ”新 建 数据 集 orders 及 其 标题 


可 以 看 出 ， 虽 然 没有 看 到 该 时 间 段 内 有 类 型 3 的 订单 出 现 ， 但 是 输出 标题 仍然 为 “Some Type 3Order”。 该 错误 的 原因 在 于 SAS 对 宏 语 言 的 处 理 有 着 最 高 的 优先 级 : 当 用 户 提 交 该 程序 时 ，SAS 对 其 进 
行 编译 ， 在 第 24 行 ，SAS 调 用 了 宏 处 理 器 创建 了 宏 变 量 foot， 并 赋值 为 “No Type 3Order”; 接着 ,在 第 27 行 ，SAS 遇 到 该 赋值 语句 时 ， 由 于 foot 已 经 存在 于 宏 变 量 表 中 ，SAS 修 改 了 foot 的 值 为 “Some 
Type 3Order”。 这 时 候 , 该 DATA 步 内 所 有 的 宏 语句 已 经 处 理 完毕 ,编译 完 data orders 部 分 的 代码 如 下 : 


data orders; 
keep order date order type quantity retail price; 
set order fact engd=final; 
where year (orqer date)=&year and month (order date)=&month; 
if order type=3 then Number+l; 
if final then do; 
put Number=; 
if Number=0 then do; 
end; 



































else do; 
end; 
end; 
run; 


当 SAS 遇 到 run 语 句 时 ， 开 始 执行 该 代码 ， 然 而 无 论 number 的 值 为 多 少 ， 都 不 会 修改 宏 变 量 foot 的 值 ， 因 而 ， 在 proc print 里 面 的 调用 “&foot” 的 结果 总 是 “Some Type 3Order”。 如 果 SAS 能 在 
run 之 后 ， 也 就 是 执行 阶段 生成 宏 变 量 foot， 那 么 就 可 以 产生 正确 的 结果 。 在 下 一 节 中 ， 将 会 具体 讲述 如 何在 执行 阶段 产生 宏 变 量 。 总 之 ， 相 比 其 他 语言 ， 宏 语言 处 理 的 优先 级 更 高 。 


7.5.2 ” 宏 语 言 与 DATA 步 


1.SYMPUT 国 数 


宏 语言 与 DATA 步 语言 之 间 的 “沟通 ”是 主要 是 通过 变量 的 传递 来 实现 的 。 具 体 说 ，SAS 人 允许 用 户 在 DATA 步 执行 过 程 中 生成 一 个 宏 变 量 ， 也 允许 用 户 在 DATA 步 执行 过 程 中 调用 宏 变 量 。 二 者 之 间 变 量 
的 生成 与 使 用 主要 是 通过 函数 SYMPUT 与 SYMGET 来 实现 的 。 


函数 SYMPUT 用 来 在 DATA 步 中 动态 生成 变量 ， 其 语法 如 下 : 





CALI，SYMPUT ( 宏 变 量 ， 文 本 ) ; 





其 中 ， 宏 变量 指定 了 一 个 宏 变 量 的 名 称 ， 该 函数 的 作用 是 将 参数 文本 包含 的 字符 值 赋 予以 这 个 名 称 命名 的 宏 变 量 。 
宏 变 量 与 文本 可 以 是 以 下 这 些 : 


. 常量 (必须 用 引号 括 起 来 ) 


- DATA 步 中 的 字符 表达 式 
例 7.20: 修改 例 7.19 中 的 %LET 语 句 ， 使 得 PROC PRINT 在 调用 foot 时 可 以 正确 地 显示 结果 。 


示例 代码 如 下 : 





$let month = 2; 

$let year = 2013; 

data orders; 
keep order date order type quantity retail price; 


set order fact engd=final; 























where year (orqer date)=&year and month (order date)=&month; 
if order type=3 then Number+l; 
if final then do; 
put Number=; 
if Number=0 then do; 
call symput ('foot',' No Type 3 Order '); 
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call symput ('foot',' Some Type 3 Order '); 


engd; 
UN 
proc print data=orders; 
title "Order in &year-&month"; 
footnote "“&foot"; 














run; 





用 户 提交 上 述 程序 后 ，SAS 开 始 对 程序 进行 编译 ，CALL SYMPUT 语 句 在 编译 阶段 未 被 执行 ， 当 编译 到 RUN 语 句 时 ，SAS 开 始 执行 该 段 程 序 。 在 IF FINAL 语 句 之 前 ，Number 的 值 为 0， 于 是 SAS 执 行 以 
下 语句 : 








call Symput ( "foot'，'NO Type 3 Order); 





Order in 2013-2 
Obs order date order type quantity retall pnce 
1 | 02/07/2013 2 656.6 
2 | 02/07/2013 1 129.0 
3 | 02/09/2013 36.2 
4 | 02/16/2013 29.4 
192.0 
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图 7.24 ”使 用 CALL SYMPUT 语 和 句 后 数据 集 orders 的 脚注 


需要 注意 的 是 ，%LET 语 句 赋值 是 不 需要 加 引号 的 ; 而 使 用 CALL SYMPUT 时 ， 若 变量 名 与 赋值 内 容 是 常量 (不 是 由 其 他 表达 式 生成 ) ， 则 都 必须 加 3 引号。 此外， 从 SAS 9.0 开 始 ，SAS 新 增 了 一 个 宏 函数 
CALL SYMPUTX， 其 语法 、 含 义 与 CALL SYMPUT 基 本 一 致 。 二 者 的 区 别 如 下 : 


. 在 文本 赋值 给 宏 变 量 的 过 程 中 ， 使 用 CALLSYMPUTX 会 删 去 文本 的 头 尾 空 格 ， 而 CALL SYMPUT 不 会 。 


当 文 本 是 数值 型 时 ， 在 赋值 过 程 中 ， 数 值 将 被 转化 成 字符 ，CALL SYMPUTX 用 于 存储 字符 的 宽度 可 以 长 达 32， 且 日 志 中 不 会 输出 类 型 转化 信息 ; 而 CALL SYMPUT 用 于 存储 的 宽度 仅 为 12 个 字符 ， 且 
日 志 输 出 类 型 转化 信息 。 


2.SYMGET 六 数 


SYMGET 函 数 与 SYMPUT 函 数 的 使 用 规则 类 似 ， 二 者 都 是 在 执行 阶段 处 理 变 量 的 ，SYMPUT 是 在 DATA 步 中 生成 宏 变 量 ; 而 SYMGET 是 在 宏 变量 表 中 获取 变量 及 其 值 到 PDV 里 面 。 函 数 SYMGET 的 使 用 
语法 为 : 


SYMGET (参数 ) ; 








其 中 ， 参 数 可 以 是 以 下 这 些 : 

` 一 个 宏 变量 名 ， 必 须 加 上 引号 。 

" DATA 步 中 的 字符 型 变量 名 ， 该 变量 名 的 值 是 一 个 宏 变 量 名 ,使 用 时 不 加 引号 。 
“ 字符 表达 式 ， 其 结果 是 宏 变 量 名 。 


例 7.21: 表 student 中 包含 了 学 生 的 名 字 和 level， 其 中 level 的 可 能 取 值 为 : L1、L2 和 L3。 下 述 代码 定义 了 3 个 宏 变 量 ， 分 别 为 L1、L2 和 L3， 并 分 别 对 它们 进行 了 赋值 。 在 SAs 执 行 生产 表 student level 
的 过 程 中 ， 读 入 表 student， 根 据 student 中 level 的 值 ， 把 它们 替换 为 easy、moderate 或 者 hard。 


示例 代码 如 下 : 





Slet Ll1 = easy; 











$let L2 = moderate; 
$let L3 = hardgd; 
data work.student; 


input name $ level $; 
datalines; 
Steve L1 
Jim L2 
Abby L1 
Scott LL3 
Peter L2 
run; 
data work.student level; 
Set work.student; 
intensity = symget (level); 








run; 


proc print data = work.student level noobs; 
title "Using SYMGET Function in DATA Step"; 











run; 


输出 结果 如 图 7.25 所 示 。 





Using SYMGET Function In DATA Step 


name level 
Steve 【Li 
Jim L2 
Abby | Li 
Scott | | 
Peter | Lez 





intensity 
easy 
Imoderate 
easy 
hard 
moderate 


图 7.25 ”SYMGET 汤 数 的 使 用 


使 用 SYMGET 和 “&” 都 能 从 全 局 或 局 部 变量 表 中 获取 相应 的 宏 变 量 的 值 ， 不 同 的 是 SAS 对 “&” 的 处 理 是 在 编译 阶段 ， 而 SYMGET 是 在 执行 阶段 (如 例 7.21 所 示 ) 。 


7.5.3 ” 宏 语言 与 5QL 语 言 


正如 前 一 章 所 述 的 ，PROCSQL 是 SAS 编 程 的 一 个 重要 部 分 ，SAS 同 样 支持 在 PROCSQL 中 生成 安 变量 。 本 节 将 着 重 前 述 如 何在 PROC SQL 语 言 中 生成 宏 变 


INTO 语 名 


PROC SQL 语言 通过 INTO 语 句 来 支持 宏 变 量 


ROC SOL 
ELECT 变量 1， 变 量 2 
INTO: 宏 变量 名 1，: 宏 变量 名 2 


区 






































RDER BY 变量 1， 变 量 





四 | 
DD 
~ 








QUIT; 





其 中 : 


“ 不 同 宏 变量 名 之 间 用 去 号 隔 开 ， 每 个 宏 变 


. 车 变量 头 尾 带 空格 么 生成 的 相应 宏 变 


的 定义 ， 其 语法 如 下 : 


量 名 前 均 要 加 上 冒号 。 


量 中 头 尾 也 带 空格 。 


例 7.22: 在 PROCSQL 中 生成 宏 变 量 total， 使 该 变量 的 值 为 表 sashelp.orsales 中 1991Q1 季 度 profit 总 额 。 


























示例 代码 如 下 : 

1. proc sql noprint; 

2. select sum(profit) into: total 

3. from sashelp.orsales 

4. where quarter = '199901'，; 

5 "lit 

6. S$%put the total profit of 199101 is: &total; 

















在 上 述 代码 第 2 行 中 ，SELECT 语 句 把 sum (profit) 的 值 赋 给 了 宏 变 量 total; 在 第 6 行 ，%PUT 语 句 在 日 志 中 输出 该 宏 变量 的 值 ， 结 果 如 图 7.26 所 示 。 


31 -put the total profit of 1991Q1 is: &total: 


the total profit of 199101 is: 2593121 





图 7.26 ”使 用 [INTO 生 成 宏 变 量 (一 ) 


@ 注 意 上述 宏 变量 total 的 解析 值 中 包含 空格 ， 软 认 情 况 下 ，INTO 中 宏 变 量 的 存储 格式 为 Best12.， 当 变量 值 的 长 度 小 于 12 时 ，SAS 在 其 前 面 补 上 空格 。 若 用 户 不 希望 有 空格 ， 则 可 以 在 引用 该 变量 前 使 
用 %LET 语 和 句 删 去 空格 ， 例 如 “%LET total=&total; ” 


上 述 INTO 语 句 也 可 以 用 来 把 不 同 的 变量 值 赋值 给 同一 个 宏 变量 ， 用 户 可 以 在 宏 变量 名 后 加 上 SEPARATED 选 项 来 对 不 同 变量 值 进 行 分 隔 ， 其 使 用 语法 如 下 : 





SEPARATED BY ' 分 隔 

















其 中 ， 分 隔 符 可 以 是 任何 文本 与 符号 ， 常 见 的 有 空格 、 喜 号 等 。 
例 7.23: 在 代码 中 生成 一 个 宏 变 量 ， 其 值 包 含 数据 集 sashelp.orsales 中 变量 product line 的 所 有 可 能 取 值 ， 不 同 取 值 间 用 逗号 隔 开 。 


示例 代码 如 下 : 


proc sql noprint; 

select distinct product line into: all product lines 
separated by ', ' 
from sashelp.orsales; 
quit; 
sput all distinct product lines are: &all product lines; 




















日 志 中 显示 的 结果 如 图 7.27 所 示 。 


256 %put all distinct product lines are: &all product lines; 


all distinct product lines are: Children, Clothes & Shoes, Outdoors, Sports 





图 7.27 ”使 用 INTO 生 成 宏 变 量 (二 ) 


7.6“ 安 编程 
在 本 章 开 始 提 到 了 使 用 宏 语言 可 以 实现 条 件 控制 。 宏 语言 的 控制 功能 大 体 可 分 为 : 条 件 语句 与 循环 语句 。 


7.6.1 条 件 语句 


%IF%THEN 语 句 用 来 实现 对 宏 语言 的 条 件 控制 功能 ， 其 语法 如 下 : 








$IF 表达 式 STHEN 文本 1 
sELSE 文本 2 

















其 中 ， 文 本 1 和 文本 2 可 以 是 以 下 这 些 : 


语句 的 含义 是 : 当 表 达 式 为 真 时 执行 文本 1， 人 否则 执行 文本 2。 
表达 式 中 若 涉及 字符 比较 ， 右 边 的 字符 常量 不 需要 加 引号 ， 并 且 区 分 大 小 写 。 因 而 ， 实 际 应 用 中 常常 结合 %UPCAsSE 来 使 用 ， 具 体 见 下 例 。 
例 7.24: 条 件 语句 中 的 逻辑 比较 。 


示例 代码 如 下 : 


$let Place = Us; 
smacro empty; 
$if &place = US Sthen Sput Not case sensitive; 
Selse Sput macro comparison is case sensitive; 
smengd; 
Sempty 








日 志 中 显示 的 信息 如 图 7.28 所 示 。 





macro comparison 15s Case SenslItIue 





图 7.28 条件 语句 中 的 逻辑 比较 


当 特 定 的 条 件 分 支 下 需要 执行 一 组 SAS 代 码 时 ， 则 需要 用 “%DO-%END” 来 界定 ， 具 体 如 下 : 





IF 表达 式 $THEN %DO 




















上 述 语句 组 可 以 包含 一 个 或 者 多 个 SAS 语 句 。 
下 面 用 一 个 例子 来 介绍 如 何 实现 条 件 控制 。 


例 7.25: 数据 集 Daily_order (如 图 7.29 所 示 ) 包含 了 每 天 的 销售 记录 。 管 理 人 员 需 要 生成 每 天 销售 记录 的 报表 ， 如 果 当 天 是 周 五 ， 则 需要 生成 周报 表 。 


TE 


G 
4 A 
5 A 
5 B 
二 

A 


5 1) 
~ 





图 7.29 ”数据 集 Daily_order 


下 面 代 码 实现 定义 了 宏 reports， 该 宏 根 据 当 前 系统 日 期 ， 自 动 判断 应 生成 报表 的 种 类 ， 即 是 当天 报表 还 是 周报 表 。 














1. %macro reports; 

2. $if &sysday=Friday %then 

3. Soy 

4. proc means data=daily order n sum mean; 
5. where order date between "&sysdate9"d-6 and "&sysdate9"gd; 
6. var quantity total price; 

71. title "Weekly sales: &sysdate9"; 

8. run 

9. $engd; 

10. Selse 

11. Sdo; 

12. Proc gdl; 

二 3 select * 

14. from daily order 

| .9 where order date="&sysdate9"gd; 
16. title "Daily sales: &sysdate9"; 


表 。 


7.6.2 


17. quit; 
18. $engd; 
19. smend reports; 
20. Sreports 








UU 


上 述 代码 的 第 2 行 中 ， 系 统 宏 变量 &SYSDAY 返 回 的 是 当前 的 星期 ， 若 该 值 为 Friday， 那 么 将 执行 第 3~9 行 代码 ， 否 则 执行 第 11~18 行 代码 。 第 3~9 行 代码 将 输出 周报 表 ; 第 11~18 行 代码 生成 当天 的 报 


表 7.8 总 结 了 宏 条 件 语句 与 DATA 步 中 条 件 语句 的 差别 。 


表 7.8 


%IF-%THEN-%ELSE 语句 
只 能 在 安定 义 程 序 中 使 用 
在 执行 过 程 中 执行 
If 表达 式 中 只 能 用 安 变量 
不 文 持 同 时 市 上 下 界 的 比较 ， 如 1<=x<=10 


循环 语 名 
除了 上 节 介绍 的 条 件 语 句 外 ， 另 一 常 


%DO 指标 变量 = 开始 值 %TO 结束 值 <sBY 增 量 > 
文本 或 者 宏 语 名 
SEND; 











“ 开始 值 、 结 束 值 与 增 量 可 以 是 能 产生 整数 的 宏 表 达 式 或 者 宏 语句 ， 如 解析 宏 变量 。 


. 默认 情况 下 ，%BY 语 句 中 的 增 量 为 1。 


根据 上 述 第 一 点 ， 在 局 部 变量 表 创建 指标 变量 前 ， 


例 7.26: %DO 循 环 语句 中 的 指标 变量 。 




















示例 代码 如 下 : 

1]. %macro funcil; 

2. $do 1=1 %to 3; 

3. $engd; 

4. %put inside funcl; 
5. %mengd; 

6. Smacro func2; 

7. S$%do i=1 %to 3; 

8. $func] 

9 sput func2; 
10. Send; 

11. smengd; 

1 SETUnG2 











在 上 述 代码 的 第 12 行 中 ,调用 了 func2，SAS 开 始 执 行 第 7~10 行 语句 。 在 第 7 行 ， 指 标 变量 i 不 存在 于 任何 宏 变 量 表 中 ， 于 是 SAS 在 func2 局 部 宏 变 量 表 中 创建 该 变量 ， 并 赋值 为 1。 接 着 执行 第 8 行 : 
func1， 执行 第 2~4 行 ， 在 第 2 行 又 出现 一 个 指标 变量 |， 此 时 i 在 局 部 宏 变 量 表 func2 中 已 经 存在 ， 所 以 SAS 更 新 该 值 ， 执 行 完 第 4 行 后 ， 局 部 宏 变 量 表 func2 中 的 i 值 为 4。 第 9 行 ， 


的 值 为 4，func2 中 的 循环 结束 。 整 个 程序 结束 ， 日 志 中 输出 结果 如 图 7.30 所 示 。 


func 


ins ide 


SAS 会 搜索 所 有 的 宏 变 量 表 ， 因 此 ， 若 多 个 局 部 宏 变 


宏 语言 与 DATA 步 中 条 件 语句 的 对 比 


IF - THEN- ELSE 语句 
只 能 在 DATA 步 中 使 用 
在 DATA 步 中 执行 
If 表达 式 中 可 用 DATA 步 变量 或 者 是 全 局 宏 变量 
可 以 使 用 同时 市 上 下 界 的 比较 


见 的 控制 语句 是 循环 语句 ， 其 作用 是 在 一 定 条 件 下 重复 执行 某 些 宏 语句 或 者 重复 产生 某 些 SAS 代 码 。 设 定 循环 的 %DO 语 句 的 语法 如 下 : 


。 当 该 宏 变 量 名 在 宏 变 量 表 中 不 存在 时 ， 宏 处 理 器 自动 在 局 部 宏 变 量 表 中 创建 该 宏 变 量 。 


量 表 含有 相同 的 变量 名 ， 有 可 能 出 现 问题 ， 具 体 见 下 例 。 





图 7.30 


调用 func2 后 日 志 输出 结果 


例 7.27: 在 代码 中 对 数据 集 sashelp.class 中 变量 name 的 每 一 个 值 都 生成 一 个 安 变 量 ， 并 且 在 日 志 中 输出 这 些 宏 变 量 的 值 。 


示例 代码 如 下 : 


”， 使 其 有 效 范围 仪 局 限于 宏 func1 中 。 因 此 ， 建 议 在 使 用 指标 变量 时 应 尽量 将 其 定 


调用 


在 日 志 中 输出 func2， 这 时 i 


义 成 








1. data null }; 

2. set sashelp.class end=no more; 

3 call symput ('name'||left( N ), (trim(name))); 
4. if no more then a 

5 call symput ('count', N ); 
6. run; 四 
71. %macro putloop; 

8. $local i; 

9 $do i=1] %to &count; 

十 0。 sput nameg&i is &&nameg&i; 
EE $end; 

12. mengd; 

13. Sputloop; 





上 述 代码 的 第 2 行 中 ，end=no_more 语 句 对 no_more 赋 值 ，DATA 步 读 取 到 最 后 一 个 观测 值 时 no_more 的 值 为 1 (也 就 是 真 ) ， 否 则 为 0; 第 3 行 中 “_N_” 为 当前 的 观测 值 数 ，LEFT 函 数 移 除 
了 “_N_” 前 的 空格 ， 随 着 观测 值 数 的 变化 ，CALL SYMPUT 语 句 会 生成 一 系列 的 宏 变 量 ， 并 把 name 的 赋值 给 这 些 宏 变 量 ; 第 4 行 ， 当 DATA 步 读 取 到 最 后 一 行 时 ， 把 行 数 赋值 给 宏 变 量 count。 


第 7~12 行 定义 了 putloop 宏 。 其 中 ， 第 8 行 声 明了 一 个 局 部 宏 变 量 i， 第 9~11 行 用 一 个 迭代 语句 在 日 志 中 输出 这 些 宏 变 量 。 最 终日 志 中 的 输出 如 图 7.31 所 示 。 


name1 is fn 
name2 15 2 
name3 is 瑟 呈 所 
name4 is se 
names 15 早 ; 
name6 is 和信 
name7 is5 间 
name8 1is5 蓝 
name 15 
name18 15 : 
name11 15 了 
name 12 15 
name13 15 -过 
name14 is : 
name15 15 
name 16 15 
name17 is 
name18 1s : 
name19 is 局 


3 























sDO SWHILE (表达 式 ); 
文本 或 者 宏 语句 
SEND; 





g%DO %UNTIL (表达 式 ) 
文本 或 者 宏 语句 





%DO-%WHILE 语 句 先 判断 表达 式 ， 后 执行 文本 ; 而 %DO-%UNTIL 语 句 先 执行 文本 ， 后 判断 表达 式 。 因 此 ，%DO-%UNTIL 语 句 至 少 执行 一 次 。 


例 7.28: 在 代码 中 定义 带 参 数 的 宏 print_muiltiplies， 用 来 一 次 打印 多 个 文件 。 假 设 数据 管理 人 员 有 多 个 文件 要 同时 打印 ， 只 需要 调用 宏 print_multiplies， 在 参数 位 置 填写 所 有 要 打印 表格 的 名 称 ， 且 用 
空格 隔 开 即 可 。 




















示例 代码 如 下 : 

1. %macro print multiplies (dsns); 

2. slet i = 1; 

3. $let current data = %scanl(&dsns, &i,' '); 

4. g%qo Swhile (&current data ne ); 

95, proc print data = &current data; 

6. run; 加 

¥ Slet i=%$eval (&i+1); 

8. $let current data = %scan(&dsns, &i, ' '); 
9., $end; 


. Smeng; 
. Sprint multiplies (sashelp.class sashelp.classfit) 


= 











执行 上 述 代 码 ， 第 1~ 10 行 ， 定 义 了 一 个 带 参数 的 宏 print multiplies， 经 SAs 宏 处 理 器 编译 无 误 后 ， 存 储 起 来 。 第 11 行 ， 调 用 该 宏 ，SAs 开 始 执行 第 1~ 10 行 。 


实现 SAS 在 局 部 宏 变量 表 内 创建 一 个 名 为 dsns 的 局 部 宏 变 量 ， 并 赋值 为 sashelp.classsashelp.classfit。 在 第 3 行 中 ，%SCAN 函 数 返 回 变量 dsns 中 的 第 一 个 词 ， 即 sashelp.class， 并 将 该 值 赋 给 
current_data。 第 4 行 ， 判 读 current_data 是 否 为 空 ， 这 里 为 非 空 ， 因 此 执行 第 5~8 行 ， 其 中 第 5~6 行 打印 当前 数据 集 ， 即 current_data 中 的 值 ， 第 7 行 更 新 的 值 ， 第 8 行 利 用 %SCAN 溯 数 取 出 dsns 中 的 第 二 
词 ， 即 为 下 一 个 待 打印 的 数据 集 名 ， 将 该 名 赋值 给 current data。 重 新 回 到 第 4 行 ， 重 复 上 述 过 程 ， 直 至 current_data 值 为 空 。 


最 后 ， 列 举 一 些 使 用 宏 语 言 编程 的 技巧 来 结束 本 章 内 容 : 
. 可 以 在 事先 在 DATA 步 、PROC 步 以 及 SQL 中 测试 程序 ， 确认 无 误 后 ， 再 将 其 用 宏 语言 “包装 ”起 来 。 


. 尽量 避免 写 较 长 的 代码 。 可 以 编写 若干 个 较 小 的 宏 (如 一 个 宏 实现 一 个 特定 的 功能 ) ， 进 行 调试 ， 然 后 再 将 这 些 较 小 的 宏 组 合 起 来 。 其 中 ， 可 以 充分 利用 宏 语言 的 系统 选项 来 调试 程序 。 


7.7 ”本章 小 结 


本 章 主要 介绍 了 SAs 宏 语言 的 有 关 知 识 。 首 先 ， 讲 解 了 对 宏 变 量 进行 定义 、 调 用 、 查 看 和 删除 的 方法 ;其 次 ， 介 绍 了 SAs 函 数 在 宏 语 言 中 的 调用 方法 和 常见 的 安 函 数 ; 接 下 来 ,介绍 了 如 何在 SAS 中 使 用 
宏 语 言 定义 宏 、 调 用 宏和 存储 宏 ， 并 介绍 了 宏 的 编译 原理 ， 以 及 宏 语 言 与 DATA 步 和 SQL 过 程 的 交互 ; 最 后 ， 介 绍 了 宏 语 言 中 条 件 语句 和 循环 语句 的 使 用 方法 。 


第 8 章 ” 开 友 多 语言 文 持 的 9As 程 序 


SAS 软 件 支持 国际 化 ， 并 且 已 经 针对 全 球 大 部 分 地 区 推出 了 本 地 化 版 本 。 在 不 同 语言 的 操作 环境 下 ，SAS 软 件 的 界面 、 输 出 、 日 志 等 均 使 用 当地 语言 ， 并 符合 当地 的 标准 和 规范 。SAS 也 提供 国际 语言 
持 NLS (National Language Support) 功能 ， 可 利用 该 功能 开发 NLS 应 用 ， 从 而 对 本 地 区 语言 数据 进行 分 析 处 理 ， 之 后 则 以 符合 本 地 区 语言 规范 的 形式 展示 分 析 结果 和 信息 。 基 于 NLS 特 性 ， 还 可 以 开发 
多 语言 支持 MLS (Multi-lingual Support) 的 SAS 应 用 ， 同 一 SAS 程 序 在 不 同 的 语言 /区 域 设置 下 ， 对 数据 的 分 析 处 理 以 及 分 析 的 结果 和 信息 展示 都 会 符合 相应 国家 和 地 区 的 语言 、 文 化 习惯 。 


本 章 介绍 了 开发 多 语言 支持 的 SAS 应 用 程序 的 相关 概念 和 特性 ， 包 括 国际 化 、 本 地 化 、 语 言 /区 域 、 编 码 字符 集 、SAS NLS 支 持 、NL 格 式 和 输入 格式 、 字 符 串 外 部 化 等 。 其 中 的 很 多 概念 和 使 用 其 他 编程 
语言 开发 时 并 没有 什么 不 同 。 在 理解 这 些 概念 和 SAs 的 NLS 特 性 的 基础 上 ， 读 者 不 仅 可 以 处 理 与 当前 SAs 会 话 编码 不 同 的 数据 ， 而 且 可 以 开发 多 语言 支持 的 SAs 应 用 。 


8.1 ”多 语言 支持 的 基本 概念 


多 语言 支持 的 应 用 程序 指 该 程序 在 世界 各 地 使 用 时 ， 其 能 够 处 理 的 数据 ， 以 及 处 理 数据 的 方式 、 信 息 展现 的 方式 都 符合 当地 的 语言 、 文 化 习惯 ， 这 要 求 应 用 程序 在 运行 时 ， 能 够 自动 进行 与 地 区 、 语 言 
相关 的 处 理 ， 也 就 是 通常 所 说 的 国际 化 。 国 际 化 (Internalization) 是 指 在 设计 软件 时 ， 充 分 考虑 并 满足 软件 将 运行 于 不 同 地 区 和 语言 环境 下 这 一 要 求 的 过 程 ， 也 就 是 说 ， 在 设计 软件 时 不 假定 该 软件 是 基 
于 某 个 语言 和 地 区 的 ， 当 软件 被 应 用 到 不 同 的 语言 及 地 区 时 ， 软 件 代码 无 需 改变 或 修正 。 


本 地 化 (Localization) 则 是 在 国际 化 的 基础 上 ， 加 上 与 特定 语言 /区 域 (Locale) 有 关 的 信息 和 翻译 文件 的 过 程 ， 例 如 翻译 用 户 界面 、 系 统 消息 和 文档 等 。 国 际 化 是 本 地 化 的 基础 ， 产 品 实现 了 国际 
化 ， 表 示 产 品 可 以 通过 本 地 化 使 其 适用 于 任何 语言 和 地 区 ， 而 本 地 化 则 是 为 了 在 特定 的 地 区 使 用 而 做 的 额外 工作 。 例 如 ， 在 中 国 地 区 产品 要 实现 本 地 化 ， 其 界面 就 需要 是 中 文 的 ， 从 原来 的 英语 转译 为 中 文 
的 过 程 则 属于 本 地 化 的 范围 。 全 球 化 (Globalization ) 经 常用 来 表示 国际 化 和 本 地 化 的 组 合 。 


8.1.1 语言/ 区域 


语言 /区 域 (Locale) 反映 某 一 地 理 区 域 的 语言 、 本 地 习俗 (例如 数据 格式 ) ， 以 及 文化 。 本 地 习俗 包括 国家 或 地 区 的 数字 、 日 期 时 间 和 货币 符号 的 特定 格式 。 除 此 以 外 ， 语 言 /区 域 还 包括 字符 排列 规 
则 、 纸 张大 小 设置 、 邮 政 地 址 、 电 话 号 码 等 。 对 语言 /区 域 进行 设置 主要 是 指 对 给 定语 言 /区 域 下 的 输出 或 信息 展现 进行 格式 化 。 软 件 通 常会 根据 Locale 值 来 确定 其 与 语言 文化 习俗 相关 的 行为 。 


例如 美国 、 中 国 、 法 国 的 短 格式 日 期 、 数 字 、 货 币 符号 之 表示 法 如 表 8.1 所 示 。 在 短 日 期 格式 中 ， 这 3 个 国家 日 期 中 的 年 、 月 、 日 的 顺序 ， 以 及 货币 符号 都 不 尽 相同 。 在 数字 表示 上 ， 干 分 位 符号 、 小 数 
点 符号 ， 美 国 与 中 国 一 致 ， 而 法 国 则 不 同 。 在 表示 货币 金额 时 ， 美 元 符号 ($) 在 数字 之 前 ， 人 民 币 (着 ) 和 欧元 符号 ‘© 在 数字 之 后 。 因 此 ， 支 持 这 3 种 语言 的 应 用 程序 至 少 能 够 正确 处 理 和 输出 对 应 形式 的 
日 期 、 数 字 和 货币 表示 。 


表 8.1 美国 、 中 国 、 法 国 的 日 期 、 数 字 、 货 币 格 式 


湾 
A 
十 


地 区 日 期 (2013 年 12 月 的 第 6 天) 


顽 国 12/06/2013 12 445.76 $150 
中 国 2013/12/06 12 445.76 150 六 
法 国 06/12/2013 12 150€ 


语言 属于 Locale， 但 是 语言 并 不 唯一 对 应 任何 Locale。 例 如 ， 使 用 中 文 的 地 区 有 中 国 大 陆 、 中 国 香港 、 中 国 台 湾 、 中 国 澳门 等 ， 但 这 些 地 区 的 文化 习俗 不 尽 相同 。 同 时 ， 一 个 国家 也 可 能 有 多 种 官方 语 
。 例 如 ， 加 拿 大 有 两 种 官方 语言 ， 英 语 和 法 语 。 通 常会 使 用 区 域 标识 符 LCID (Locale ID) 对 世界 各 地 区 及 语言 进行 统一 标识 。LCID 至 少 由 语言 标识 符 和 区 域 标识 符 组 成 。POSIX 标 准 的 区 域 标识 符 的 形 
式 为 “语言 区 域 ”， 例 如 上 述 使 用 中 文 的 地 区 ， 它 们 的 区 域 标识 符 分 别 为 zh _CN、zh_HK、zh_TW、zh_MO 和 zh_sG。 同 样 ， 加 拿 大 使 用 英语 和 法 语 的 区 域 标识 符 分 别 为 en_CA 和 fr_CA。 


ll 


8.1.2 ”字符 集 和 编码 


字符 集 (Character Set) 是 由 一 种 或 一 组 语言 使 用 的 字符 和 符号 组 成 的 集合 。 字 符 集 包 含 本 地 字符 、 特 殊 字符 (标点 符号 ) 、 不 带 音 标的 大 小 写 拉 丁字 符 (a~z 和 A~Z) 、 数 字 0~9 和 计算 机 需要 使 用 
的 控制 字符 。 字 符 集 编码 (Character Set Encoding) 是 指 将 一 个 字符 集中 的 每 个 字符 映射 为 一 个 唯一 的 数字 ， 所 有 的 字符 及 对 应 的 数字 构成 了 码 点 (Code Point) 表 ， 所 对 应 的 数字 则 称 为 该 字符 的 码 
点 。 码 点 表 也 称 为 码 页 (Code Page) ， 通 常 按照 字符 的 码 点 进行 排序 。 数 据 在 计算 机 中 以 其 包含 的 字符 编码 进行 存储 。 


例如 ， 图 8.1 给 出 了 以 GBK 编 码 的 码 页 中 C3、C4 区 所 表示 的 字符 。C3 区 的 汉字 “ 米 ′ 在 该 分 区 的 第 D 行 ， 第 7 列 ， 那 么 汉字 “ 米 ” 对 应 码 点 的 十 六 进 制 表示 为 “C3D7”。 同 样 ，C4 区 的 汉字 “ 牧 " 在 
GBK 编 码 中 码 点 的 十 六 进 制 表示 为 “C4C1” 。 


秒 
A 
B 


吧 
加 
i 
和 me 
is 


六 识 协 衣 


和 
地 沽 总 吕 洲 


Bal 





图 8.1 GBK 编 码 的 C3 和 C4 区 字符 


1. 常 用 的 编码 方法 
编码 方法 通常 是 由 各 个 计算 机 硬件 制造 商 和 标准 组 织 开发 的 标准 。 常 用 的 编码 如 下 : 
(1) 美国 信息 交换 标准 编码 ASCII (American Standard Code for Information Interchange) 
一 种 7 位 编码 ， 提 供 128 个 字符 ， 常 用 于 个 人 计算 机 。 
(2) 广义 二 进 制 编码 的 十 进 制 交换 码 EBCDIC (Extended Binary Coded Decimal Interchange Code) 系列 
一 种 8 位 编码 ， 提 供 256 个 字符 ， 常 用 于 IBM Mainframe 和 大 多 数 IBM 中 型 计算 机 。 
(3) 国际 标准 化 组 织 ISO (International Organization for Standardization) 646 系 列 


一 种 国际 标准 的 7 位 编码 ， 提 供 128 个 字符 。1SO 646 系 列 与 AsCll 相 似 ， 但 是 它 使 用 几 个 标点 符号 兼 做 附加 符号 ， 用 于 表示 特定 语言 需要 的 变 体 字 符 (例如 带 尖 音 、 重 音 、 分 音 等 的 字符 ) ， 并 且 开 放 了 
其 中 12 个 符号 的 编码 ( 称 为 国 别 用 途 码 位 ) ， 人 允许 各 国 用 于 表示 不 同 的 字符 。 该 系列 编码 已 被 更 现代 的 ISO 8859 所 取代 。 


(4) 1SO 8859 系 列 


在 ASCII 编 码 之 上 的 8 位 编码 ， 共 提供 256 个 字符 。1SO 8859 系 列 支 持 所 有 ASCII 码 点 ， 并 直接 编码 表示 变 体 字符 。 常 见 的 Latin1-10、Cyrillic、Arabic、Greek、Hebrew、Thai 都 属于 ISO 8859 系 列 。 
Latin1， 官 方 名称 为 ISO-8859-1， 是 该 系列 编码 中 最 常用 的 成 员 ， 包 含 AsCll 字 符 、 重 音字 符 等 西欧 语言 需要 的 其 他 字符 和 一 些 特殊 字符 。 


(5) GB 2312、EUC-CN、GBK 


国标 码 是 “中 华人 民 共 和 国 国 家 标准 信息 交换 用 汉字 编码 ”的 简称 。 常 用 国标 字符 集 为 GB 2312 或 GB 2312-80， 共 收录 6763 个 汉字 ， 以 及 包括 拉丁 字母 、 希 腊 字母 、 日 文平 假名 及 片 假名 字母 、 俄 语 
西里 尔 字 母 在 内 的 682 个 字符 。EUC-CN 是 GB 2312 的 扩展 UNIX 编 码 EUC (Extended UNIX Code) 的 表示 形式 。 


GBK， 全 称 为 汉字 内 码 扩展 规范 (Chinese Internatial Code Specification) ， 是 GB 2312 字 符 集 的 扩展 字符 编码 。GBK 完 全 兼容 GB2312-80 编 码 ， 支 持 GB 2312-80 的 不 支持 的 部 分 中 文 姓氏 、 繁 体 
中 文 、 日 文 假名 ， 还 包括 希腊 字母 及 俄语 字母 等 字符 。 微 软 Windows 操 作 系 统 简体 中 文 版 采用 该 编码 。 


(6) BIG5 码 、MS-950 


BIG5， 又 称 大 五 码 ， 是 针对 繁体 汉字 的 汉字 编码 ， 目 前 在 中 国人 台湾、 中 国 香港 地 区 的 计算 机 系统 中 得 到 普遍 应 用 。MS-950 是 微软 的 繁体 中 文字 符 集 标准 ， 由 标准 BIG5 码 修改 而 成 ， 是 B16G5 最 通行 的 版 
本 ， 也 是 BIG5 码 的 事实 标准 。 


(7) Unicode 


基本 包含 世界 上 所 有 的 文字 。 有 3 种 编码 形式 : UTF-8、UTF-16 和 UTF-32， 较 常用 的 为 UTF-8 编 码 。UTF-8 是 一 种 以 8 位 (bit) 为 单位 的 变 长 度 编码 方式 ， 可 以 表示 Unicode 字 符 集 中 的 所 有 字符 。 每 
个 以 UTF-8 编 码 存 储 的 字符 ， 当 第 一 个 字 节 的 第 一 位 是 0 时 ， 则 表示 该 字符 占 一 个 字 节 。 如 果 第 一 个 字 节 不 以 0 开始 ， 则 第 一 个 字 节 会 包含 该 字符 所 占 字 节 数 的 信息 ， 且 其 余 字 节 的 头 两 位 都 是 以 “10” 开 始 
的 。 在 UTF-8 编 码 中 ，AsCll 字 母 使 用 1 个 字 节 存储 ， 重 音 文字 、 和 希腊 字母 和 西里 尔 字母 使 用 2 个 字 节 人 存储， 常用 的 汉字 使 用 3 个 字 节 ， 辅 助 平 面 字符 则 使 用 4 个 字 节 。 


2. 转 码 


字符 在 不 同 的 码 页 中 可 能 占有 不 同 的 位 置 ， 如 果 操 作 环 境 所 使 用 的 语言 /区 域 设置 和 编码 不 同 ， 那 么 它们 在 交换 数据 时 可 能 就 需要 进行 转 码 。 转 码 (Transcoding) 是 将 数据 从 一 种 编码 形式 转换 成 男 一 
种 编码 形式 。 例 如 ， 在 Windows Latin1 码 页 中 ， 德 语 中 的 字符 的 十 六 进 制 表示 为 C4， 而 在 德语 EBCDIC 码 页 中 ， 其 码 点 为 4A。 所 以 ， 如 果 将 在 Windows Latin1 编 码 的 UNIX 操 作 环 境 上 创建 的 文件 传输 到 
IBM Mainframe 操 作 环 境 上 ， 文 件 中 的 数据 就 需要 从 Windows Latin1 编 码 重 新 映射 到 德语 EBCDIC 编 码 。 如 果 数 据 中 包含 字母 ? ， 则 该 字母 的 码 点 会 从 C4 转换 成 4A。 可 以 看 出 ， 转 码 不 是 在 语言 之 间 进 行 
翻译 ， 而 是 将 字符 重新 映射 到 不 同 编 码 中 的 码 点 。 


转 码 中 经 常 出 现 的 问题 是 乱码 。 当 原 字符 集中 的 字符 在 目标 字符 集中 不 存在 时 ， 该 字符 会 显示 为 乱码 。 例 如 从 简体 中 文 编码 euc-cn 转 到 Latin1 时 ， 由 于 中 文 汉字 在 Latin1 中 不 存在 ， 因 此 中 文 汉字 会 显 
示 为 乱码 。 此 外 ， 转 码 后 的 字符 所 占 的 长 度 可 能 会 超过 原 字符 长 度 ， 这 时 ， 如 果 存 储 该 字符 所 在 字符 串 的 变量 的 长 度 不 够 ， 则 会 产生 截断 。 例 如 在 将 数据 集 从 euc-cn 编 码 转 换 到 UTF-8 编 码 时 ， 因 为 中 文 汉 
字 在 euc-cn 中 的 编码 长 度 为 2 个 字 节 ， 而 有 些 汉 字 在 UTF-8 编 码 中 的 长 度 为 3 个 字 节 ， 此 时 就 会 存在 该 字符 变量 的 长 度 无 法 容纳 其 所 有 字符 的 UTF-8 编 码 的 情况 ， 这 样 一 来 ， 转 码 后 产生 的 字符 串 实 际 上 是 被 
截断 后 的 字符 串 。 


3.SBCS、 DBCS、MBCS 
根据 字符 集 编码 中 表示 字符 所 需要 的 字 节 数 ， 字 符 集 经 常 分 为 单字 节 字符 集 、 双 字 节 字符 集 和 多 字 节 字符 集 。 


单字 节 字 符 集 SBCS (Single-Byte Character Set) 指 在 该 字符 集中 的 每 个 字符 都 以 一 个 字 节 表示 。 一 个 字 节 共 8 位 ， 仪 能 支持 28=256 个 码 点 ， 因 此 限制 了 在 该 字符 集中 的 可 用 字符 数 。256 个 码 点 的 字 
符 集 足够 支持 大 部 分 欧洲 语言 ， 例 如 英语 、 法 语 、 德 语 等 。 但 是 对 一 些 具有 更 多 字符 的 语言 ， 例 如 中 文 和 日 语 则 完全 不 够 ， 所 以 需要 使 用 更 多 字 节 来 表示 这 些 语言 支持 的 字符 。 


字符 集 DBCS (Double-Byte Character Set) 指 该 字符 集中 的 字符 最 多 由 2 个 字 节 表示 。SAS 使 用 的 简体 中 文 编码 euc-cn、 繁 体 中文 编 码 ms-950、 日 语 编 码 shift-jis 和 韩语 编码 euc-kr 均 属于 双 


节 
字 节 字符 集 编码 ， 这 4 种 编码 通常 简称 为 CCJK。 


多 字 节 字符 集 MBCS (Multiple-Byte Character Set) 是 指 该 字符 集中 的 字符 以 多 个 字 节 来 表示 。 最 常用 MBCS 是 UTF-8 字 符 集 ， 在 该 字符 集中 ， 一 个 字符 最 多 需要 4 个 字 节 表示 。DBCS 也 是 一 种 


8.2 NLS 相关 的 SAS 选 项 
SAS 的 本 地 区 语言 支持 NLS， 使 得 SAS 软 件 产品 可 以 开发 出 符合 本 地 区 语言 规范 的 SAAS 应 用 程序 ， 从 而 使 全 球 各 地 区 的 SAS 用 户 (例如 亚洲 、 欧 洲 的 用 户 ) 都 能 够 以 本 地 区 语言 和 环境 成 功 地 处 理 数据 。 
这 种 支持 对 在 客户 端 /服务 器 环境 下 运行 SAs 应 用 的 国际 用 户 尤 为 重要 。 


SAS 应 用 程序 的 NLS 可 用 于 本 地 化 和 国际 化 ， 结 合 了 NLS 功 能 的 SAS 应 用 程序 可 避免 软件 功能 对 语言 或 文化 特定 规范 〈 例 如 字符 分 类 、 字 符 比 较 规则 、 字 符 集 、 日 期 和 时 间 格 式 、 界 面 、 消 息 文 本 的 语 
、 数 字 和 货币 格式 ， 以 及 排序 顺序 等 ) 的 依赖 。 同 时 SAS 还 提供 了 保证 本 地 特殊 字符 能 够 正确 地 显示 或 打印 的 功能 。 


ll 


接 下 来 主要 介绍 SAS NLS 特 性 的 主要 选项 : LOCALE=、ENCODING=，TIMEZONE= 以 及 一 组 语言 切换 选项 。SAS NLS 特 性 中 关于 NL 格式 或 NL 输入 格式 、 字 符 上 操 作 及 文本 字符 串 外 部 化 的 内 容 在 后 


面 的 小 节 中 会 陆续 进行 介绍 。 


8.2.1 语言 /区 域 选 项 LOCALE= 


SAS 提 供 了 语言 /区 域 选项 LOCALE= 来 处 理 和 展示 与 语言 、 本 地 习俗 及 文化 相关 的 信息 ， 例 如 数据 格式 、 物 理 地 区 文化 、 当 地 文化 习俗 国家 或 地 区 的 数字 、 日 期 时 间 和 货币 符号 等 。SAS 有 自己 定义 的 
Locale 标 识 符 ， 也 可 使 用 POSIX 标 准 的 Locale 标 识 符 来 标识 不 同 的 区 域 。 


表 8.2 给 出 了 常见 语言 区 域 的 SAS Locale 标 识 符 、POSIX 标 准 的 Locale 标 识 符 及 其 别名 。 这 3 种 形式 在 SAs 中 都 可 使 用 。 其 他 语言 /区 域 Locale 值 请 参考 SAs 帮 助 文档 。 


表 8.2 ”常用 语言 /区 域 的 Locale 值 


TT TIE 
咒语 (美国 ) Eneglish UnitedStates English、 en 
(中国 有 x 
日 语 (上 日 本 ) Japanese J ja JP Japanese 、ja 
法 语 (法 国 ) French、 ft 
德语 (德国 ) German, ge 


系统 选项 LOCALE= 的 值 可 以 在 SAS 启 动 时 指定 ， 也 可 以 在 SAS 启 动 后 通过 OPTIONS 语 句 更 改 。 系 统 选 项 LOCALE= 通 常会 影响 SAS 程 序 中 所 有 的 NL 格式 和 输入 格式 ， 以 及 字符 串 外 部 化 机 制 中 的 
SASMSG 了 水 数 和 SASMSGL 阴 数 的 执行 结果 ， 此 外 还 涉及 一 些 系 统 选 项 等 。 在 SAS 启 动 时 指定 还 是 启动 后 指定 系统 选项 LOCALE=， 所 影响 的 系统 选项 不 同 。 





1. 指 定 系统 选项 LOCALE= 


(1) SAS 启 动 时 指定 系统 选项 LOCALE= 


通常 ， 在 启动 SAs 时 ， 相 应 的 Locale 会 在 启动 时 加 载 的 SAs 配 置 文件 中 指定 。 也 可 以 通过 在 启动 SAs 的 命令 中 指定 选项 LOCALE 来 覆盖 As 配置 文件 中 的 语言 /区 域 设 置 。 在 SAs 命 令 中 指定 启动 SAS 会 话 
的 Locale 为 中 国 大 陆 (zh_CN) 的 示例 如 下 : 


#/opt/sas/SASHome/SASFoundation/9.4/sas -locale zh CN 





SAS 启 动 时 指定 了 选项 LOCALE 后 ， 它 除了 会 作用 于 SAS 程 序 中 所 有 的 NL 格式 和 NL 输入 格式 、SASMSG 函 数 和 SASMSGL 函 数 外 ， 还 会 影响 以 下 系统 选项 : DATESTYLE=、DFLANG=、 
ENCODING=、LOCALEDATA=、MAPEBCDICTOASCII=、ODSLANGCHG、PAPERSIZE=、RSASIOTRANSERROR、TIMEZONE=、TRANTAB=、URLENCODING=。 关 于 这 些 选 项 的 详细 信息 ， 以 及 


对 应 不 同 Locale 的 默认 取 值 ， 请 参考 SAS 帮 助 文档 。 
(2) SAS 启 动 后 指定 系统 选项 LOCALE= 


SAS 系 统 启动 后 ， 也 可 以 通过 OPTIONS 语 句 来 改变 系统 选项 LOCALE=， 即 当前 SAS 会 话 的 语言 /区 域 设置 。 在 SAS 启 动 后 更 改 系 统 选项 LOCALE= 为 zh_CN 的 示例 如 下 : 


options locale=zh CN; 





当 系 统 选项 DATESTYLE=、DFLANG= 和 PAPERSIZE= 的 值 为 LOCALE 时 ， 这 些 选项 的 取 值 会 随 着 Locale 的 变化 而 变化 。 


2. 查 看 SAs 会 话 的 语言 相关 设置 


在 SAS 启 动 后 ， 可 使 用 第 2 章 中 介绍 SAS 系 统 选项 时 描述 的 方法 来 查看 当前 SAS 会 话 的 Locale， 例 如 OPTIONS 过 程 、GETOPTIONS 函 数 指定 选项 名 称 或 SAS 系 统 选项 窗口 。 这 里 不 再 给 出 示例 。 还 可 通 
过 在 OPTIONS 过 程 中 指定 选项 组 LANGUAGECONTROL， 来 将 当前 SAS 会 话 中 跟 语言 相关 的 选项 及 选项 值 输出 到 日 志 中 。 例 如 ， 在 Windows 环 境 下 ， 启 动 简体 中 文 版 SAS， 提 交 如 下 代码 : 


proc options group=languagecontrol; 
run; 





打印 在 日 志 窗 口 的 消息 如 图 8.2 所 示 。 


ETESERES 
proc options group=languagecontrol; 
Funs 


SAS CR) PROPRIETARY SOFTWARE RELEASE 9.4 TS1M0 


Group=LANGUAGECONTROL 


DATESTYLE=YMD 当 ANYDTDTE, ANYDTDTH R ANYDTTME “日 日 | 
sume tente Me myoTTME 输入 格式 妆 据 不 明确 时 ， 指 定 月 、 日 和 年 
ENTENDOBsC0OUNTER=YEYS 

指定 是 否 增 大 新 sas 数据 文件 中 的 最 大 观测 数 ， 


LOGALEDATA=SASLOGALE 


HOLOGLANGCHG LE ee. a shs 输出 的 语言 


NOLOGLANGENG LOGLANGCHG.、 LSWLANG= 大 0 LOCALE= 选 珊 的 情 写 SnS 目 志 济 刁 。 


LSWLANG=LOCALE Ti LOCALE= 选项 时 Sns 日 志和 0DS 的 语言 


ep er 转 术 为 EBCDIC 以 及 从 EBCDIC 让 


NOODSLANGCHG se! 选项 时 在 0DS 给 出 中 埋 改 SAS 3 的 语言 。 
PAPERSIZE=A4 


印 纸 张 
RSASIOTRANSERROR 守 相 过 a 六 相信 法 时 上 示 转 码 异 训 ， 
TIHEZONE= 1 

表 目 录 条 目 。 
URLENCODING=SESSION 


TRANTAB= 
下 URLENCODE Ey URLDECODE 国 煞 的 参数 晤 司 用 SAS 会 话 编码 还 是 WTF-8 
Docs 力 示 亚 语言 这 到 局 话 双 宁 节 宁 符 集 。 J 
DBCSLANG=CHINESE 是 双 宇 世 地 


TYTE-PEIS 和 和 观 站 

LOCALE=ZH_CH 悟 正 5 A ， 其 反映 菜 一 地 理 区 域 的 语言 、 当 地 习 恰 入 化。 
NOHLSCOMPATHMODE 码 

NOTE: “PROCEDURE OPTI 里 H-|) : 

Gy EI 
CPU 时 | 昌 





图 8.2 ”语言 控制 组 选项 输出 


8.2.2 ”编码 选项 ENCODING= 


编码 是 SAs 会 话 和 要 处 理 分 析 的 数据 的 重要 属性 。 为 了 保证 数据 在 SAs 会 话 中 能 够 正确 地 被 分 析 处 理 ，SAs 提 供 了 系统 选项 NCODING= 以 及 一 些 数 据 集 选 项 、 逻 辑 库 选 项 和 读 写 文 件 选项 ， 便 于 灵活 
地 处 理 各 种 编码 的 数据 。 


1.SAS 会 话 编码 


系统 选项 ENCODING= 用 于 指定 SAS 会 话 的 编码 ， 即 SAS 会 话 使 用 哪 种 编码 处 理 数 据 。SAS 会 使 用 该 编码 构造 处 理 SAS 语 法 和 数据 集 ， 以 及 读 写 外 部 文件 的 环境 。 


SAS 会 话 的 编码 只 能 在 SAS 启 动 时 指定 ， 而 且 在 SAS 启 动 后 不 可 更 改 。 可 通过 选项 LOCALE= 指 定 SAS 会 话 编 码 为 指定 区 域 /语言 的 默认 编码 ， 或 者 通过 选项 ENCODING= 来 指定 。 确 定 选 项 
ENCODING= 值 的 顺序 如 下 : 


. 如 果 在 SAS 启 动 时 指定 了 选项 ENCODING= 的 值 ， 则 为 该 值 。 例 如 ， 在 SAAS 启动 时 使 用 选项 ENCODING= 指 定 会 话 编码 为 euc-cn 的 形式 如 下 : 


#/opt/sas/SASHome/SASFoundation/9.4/sas -encoding euc-cn 





* 如 果 未 指定 选项 ENCODING= 的 值 ， 但 是 指定 了 选项 LOCALE=， 则 选项 ENCODING= 的 值 为 指定 Locale 在 相应 操作 环境 下 的 默认 值 ， 如 表 8.3 所 示 。 注 意 ， 在 不 同 的 操作 环境 下 ， 相 同 的 语言 /区 域 选 
项 ，SAS 所 使 用 的 字符 集 编 码 〈 即 选项 ENCODING= 的 值 ) 可 能 不 一 样 。 


表 8.3 ”常用 Locale 设 置 下 的 SAS 会 话 编码 


TT TT DN 
zh TW euc-tw、ms-9509 latin9 


注 : (D 跟 平台 相关 。 





Q 跟 平台 相关 。 


" 如 果 在 SAS 启 动 时 既 没 有 指定 LOCALE= 也 没有 指定 ENCODING=，SAS 会 将 编码 设置 为 默认 值 。 在 Windows 操 作 环 境 上 ， 选 项 ENCODING 的 上 默认 值 为 wlatin1 ， 在 UNIX 下 默认 值 为 latin1。 


在 SAS 启 动 后 ， 可 使 用 前 面 介绍 的 查看 选项 LOCALE= 的 方法 ， 来 查看 选项 ENCODING 的 值 。 
2.SAS 数 据 集 的 编码 
使 用 SAS 9 创建 的 数据 集 文件 在 其 描述 信息 中 包含 了 编码 信息 。 数 据 集 的 编码 默认 为 创建 该 数据 集 的 SAS 会 话 的 编码 ， 也 可 以 通过 选项 覆盖 。 
(1) 查看 数据 集 编码 
可 使 用 SAS 资 源 管理 器 的 数据 集 属 性 对 话 框 、CONTENTS 过 程 (DATASETS 过 程 的 CONTENTS 语 句 ) 或 ATTRC 函 数 来 查看 SAS 数 据 集 的 编码 。 


1) 数据 集 属性 对 话 框 。 在 SAs 资 源 管理 器 中 找到 该 数据 集 ， 右 键 单 击 该 逻辑 库 ， 并 在 浮动 菜单 中 选择 “属性 ”， 然 后 选择 “详细 信息 ”选项 卡 ， 其 中 “编码 ”项 给 出 了 数据 集 的 编码 信息 ， 数 据 集 
sashelp.class 的 编码 为 euc-cnSimplified Chinese (EUC) ， 如 图 8.3 所 示 。 


2) 使 用 CONTENTS 过 程 (或 DATASETS 过 程 的 CONTENTS 语 句 ) 。 该 过 程 运行 结果 的 第 一 个 表格 中 会 给 出 指定 数据 集 的 编码 信息 。 使 用 该 方法 打印 的 包含 数据 集 sashelp.class 的 编码 信息 表格 如 图 8.4 
所 示 ， 其 编码 为 euc-cnSimplified Chinese (EUC) 。 





三 sashelp. Class’” 全 医 性 


营 规 | 详细 信息 | 列 | 索引 | 完 束 性 | 密码 | 





行 长 度 40 

已 禾 队 的 行 0 

重用 Ho 

拍 [ 观 测 | Yes 

数据 集 内 面 坟 小 BS536 

数据 集中 数 | 

首 数据 名 | 

繁 内 了 勾 六 观 珊 类 1632 

首 数据 只 和 观测 类 19 

数据 集 修 路 数 0 

Extendibs, ount er 1Es 

克 件 韶 C: ‘Froeram Files\ShSsHome \SASF oundation'g, 4‘nls'zh sushel 
台 | 建 版 本 9. D401B0 
色 | 建 主机 X64_TFBD 
auc—en Simplifiad Chinase EUC) 图 



























图 8.3 ”数据 集 “ 属 性 ”对 话 框 


CONTENTS PROCEDURE 


SASHELP.CLASS 观测 19 
DATA 要 豆 3 
引擎 v9 索引 0 
2013-06-20 00:43:26 观 届 长 度 dD 





2013-06-20 00:43:26 删除 的 观测 0 





已 排序 NO 





标签 学 生 娄 据 
数据 表示 法 WINDOWS_64 





图 8.4 CONTENTS 过 程 输出 


3) 使 用 ATTRC 函 数 。 使 用 ATTRC 函 数 可 获取 数据 集 sashelp.class 文 件 的 属性 ENCODING， 并 打印 在 日 志 窗 口 。 











$let aqsiq=ssysfunc (open (sashelp.class,i)); 
sput %Ssysfunc(attrc(&dsid,encoding)); 











日 志 窗 口中 显示 其 编码 为 euc-cnSimplified Chinese (EUC) ， 如 图 8.5 所 示 。 


图 日 志 - 《无 标题 ) 
111 %let dsid=%sysfunc(open{(sashelp.class,1i)y); 


112 Sput Ssysfunc(attrc(&dsid,encoding)); 
euc-cn Simplified Chinese (EUCY 





图 8.5 ATTRC 函 数 返 回 数 据 集 编码 
(2) 读 取 和 写 入 SAS 数 据 集 
默认 情况 下 ，SAS 使 用 当前 会 话 的 编码 读 写 SAs 数 据 集 。 但 是 ， 必 要 时 可 通过 选项 来 履 盖 或 更 改 当 前 数据 集 的 编码 。 影 响 SAS 数 据 集 编码 的 选项 如 表 8.4 所 示 。 


表 8.4 影响 SAS 数 据 集 编 码 的 选项 


选 项 说 明 
数据 集 选 项 ENCODING= 指定 SAS 会 话 读 取 或 写 人 SAS 数据 集 的 编码 
数据 集 选 项 OUTREP= 指定 输出 数据 集 的 数据 表示 9 


LIBNAME 选项 INENCODING= 和 OUTENCODING= | 指定 SAS 会 话 庄 取 和 写 人 逻辑 库 中 的 SAS 数据 集 的 编码 
注 : 数据 表示 (Data Representation) 指 在 特定 操作 环境 下 数据 的 存储 格式 ， 包 括 浮 点 数 存 和 储 、 字 符 编 码 、 内 存 中 字 节 顺序 (大 端 还 是 小 端 ) 、 单 词 对 齐 (4 字 节 边界 还 是 8 字 节 边界 ) 、 整 型 数据 类 型 长 
度 等 。 当 使 用 了 数据 集 选 项 OUTREP= 时 ，SAS 会 使 用 由 OUTREP= 的 值 指定 的 操作 环境 默认 的 会 话 编码 ， 将 数据 写 入 新 数据 集 文 件 。 


当 在 SAS 9 中 创建 数据 集 时 ， 如 果 所 创建 的 数据 集 为 新 数据 集 ，SAs 使 用 当前 会 话 的 编码 将 数据 写 入 数据 集 。 但 是 ， 如 果 新 数据 集 使 用 了 表 8.4 中 的 选项 ， 则 数据 集 文 件 的 编码 由 这 些 选项 确定 。 其 优先 
顺序 依次 为 数据 集 选 项 ENCODING=、 数 据 集 选项 OUTREP、LIBNAME 选 项 INENCODING= 和 OUTENCODING= (这 两 个 选项 常用 于 使 用 包含 混合 编码 的 数据 集 的 逻辑 库 ) 。 


如 果 要 写 入 的 数据 集 文 件 存 企 ， 则 修改 或 更 新 的 文件 会 继承 原来 文件 的 编码 。 但 如 果 存 在 的 数据 集 由 另 一 种 操作 环境 所 创建 (例如 当前 SAs 会 话 操作 环境 为 Windows， 而 数据 集 由 UNIX 操 作 环境 下 的 


SAs 所 创建 ) ， 或 存在 的 文件 不 带 编 码 信息 (SAS 9 之 前 的 版 本 所 创建 的 数据 集 不 包含 编码 信息 ) ， 则 使 用 当前 的 会 话 编码 。 

在 读 入 数据 集 时 ， 因 为 数据 集 文件 中 包含 了 编码 信息 ， 所 以 即使 数据 集 选项 ENCODING= 可 以 在 读 取 输入 数据 集 时 使 用 ， 大 多 数 用 户 也 不 会 去 用 ， 他 们 一 般 会 使 用 其 默认 处 理 方式 : 如 果 数 据 集 文件 编 
码 与 当前 SAs 会 话 的 编码 不 兼容 ， 数 据 集 文 件 中 的 数据 会 被 转 码 成 会 话 编码 ， 数 据 集 文件 的 编码 不 变 ; 如 果 数 据 集 文 件 没有 编码 ， 仅 当 文 件 的 数据 表示 与 当前 会 话 不 同时 才 对 数据 进行 转 码 。 
3. 读 写 外 部 文件 


默认 情况 下 ，SAs 使 用 当前 会 话 的 编码 读 取 外 部 文件 。SAs 在 读 取 外 部 文件 时 ， 通 常会 假定 外 部 文件 的 编码 与 当前 SAs 会 话 编码 一 样 ， 并 使 用 当前 会 话 编码 读 取 外 部 文件 的 内 容 。 例 如 ， 当 通过 读 取 外 部 
文件 创建 新 数据 集 时 ，SAS 会 假定 该 外 部 文件 的 编码 与 会 话 编码 一 样 。 如 果 编 码 不 同 ， 外 部 数据 可 能 会 被 不 正确 地 写 入 数据 集中 。 


SAs 提 供 了 可 用 于 帮 盖 默认 编码 的 选项 ， 以 便 指 定 与 当前 会 话 不 同 的 编码 来 读 取 外 部 文件 。 常 用 的 选项 为 ENCODING=， 用 于 %INCLUDE 语 句 、FILE 语 句 、FILENAME 语 句 、INFILE 语 句 中 指定 输入 
或 /和 输出 文件 的 编码 。SAS 还 提供 了 其 他 用 于 转 码 或 覆盖 默认 编码 行为 ， 例 如 ODSCHARSET=、XMLENCODING= 等 ， 有 兴趣 的 读者 可 参考 SAS 帮 助 文档 进行 学 习 。 


例 8.1: 将 数据 集 sashelp.cars 中 的 数据 输出 为 编码 为 UTF-8 的 外 部 文件 。 


先 在 FILENAME 语 句 中 通过 指定 选项 ENCODING= 来 实现 该 功能 ， 代 码 如 下 : 








filename outfile 'c:\sas\data\ch8\cars.dat' encoding="utf-8"; 

data null }; 
set sashelp.cars; 

file outfile; 

put Make Model Type Origin DriveTrain MSRP EngineSize; 


























然后 在 DATA 步 的 FILE 语 句 中 使 用 选项 ENCODING= 来 实现 该 功能 ， 代 码 如 下 : 





filename outfile 'c:\sas\data\ch8\cars.dat'; 

data null }; 
set sashelp.cars; 

file outfile encoding="utf-8"; 

put Make Model Type Origin DriveTrain MSRP EngineSize; 

Ur 





























4. 排 序 序列 


排序 序列 (Collating Sequence) 是 字符 排序 的 标准 。 例 如 ， 当 SORT 过 程 执行 时 ， 排 序 序列 决定 一 个 字符 相对 于 其 他 字符 的 排序 顺序 (高 、 低 或 相等 ) 。 默 认 的 排序 是 二 进 制 排列 ， 根 据 每 个 字符 在 
SAS 会 话 编码 的 码 页 中 的 位 置 ， 也 就 是 按照 字符 在 码 页 中 的 码 点 来 对 字符 进行 排序 。 


例 8.2: 对 中 国 的 各 个 城市 按 城市 名 称 进行 排序 。 


示例 代码 如 下 : 


data work.city; 
inpuat Clty D> 














datalines; 
上 海 
北京 
广州 
深圳 
run; 
proc sort data=work.city out=work.city st; 
by City; 
run; 
title "Locale=%sysfunc (getoption (Locale) ) "7 
proc print data=work.city st noobs; 
bi 





在 Locale 为 zh_CN 和 和 zh_TW 的 SAS 会 话 中 ， 排 序 结果 由 PRINT 过 程 打 印 如 图 8.6 和 图 8.7 所 示 。 


Locale=ZH CN 





图 8.6 ”排序 结果 (Locale=zh_CN) 











图 8.7 排序 结果 (Locale=zh_TW) 
在 中 国 大 陆 ， 通 常人 们 习惯 于 根据 拼音 的 全 拼 字 母 在 ASCll 字 符 中 的 顺序 来 进行 排序 ， 例 如 在 字典 、 电 话 本 中 ， 而 中 国 台 湾 则 使 用 笔画 进行 排序 。 为 了 遵循 各 地 的 语言 习惯 ，SAs 的 SORT 过 程 的 语言 排 
序 规则 与 之 类 似 。 
二 进 制 排序 是 最 快 的 排序 类 型 ， 因 为 其 对 计算 机 来 说 最 有 效 。 但 是 ， 如 果 不 熟 悉 这 种 方法 ， 在 二 进 制 排列 的 报告 中 很 难 进 行 查找 。 例 如 ， 二 进 制 排列 的 报告 中 将 以 大 写字 母 开始 的 单词 与 以 小 写字 母 开 
始 的 单词 分 开 ， 将 带 有 重音 字符 的 单词 排 在 不 带 重音 字符 的 单词 之 后 。 这 样 一 来 ， 对 于 AsCll 编 码 来 说 ， 大 写字 母 Z 就 会 排 在 小 写字 母 a 前 面 。 


在 SORT 过 程 中 还 提供 了 排序 序列 选项 来 指定 其 他 排序 序列 ， 例 如 指定 转换 表 、 编 码 值 以 及 语言 排序 等 。 使 用 选项 SORTREQ= 指 定 其 他 排序 序列 的 基本 形式 如 下 : 























PROC SORT DATA= 数 据 集 SORTSEO= 转 换 表 | 编码 |LIGNUISTIC; 
RUN 








其 中 : 
“ 转换 表 是 SAS 的 目录 条 目 ， 用 于 将 数据 从 菜 一 种 单字 节 编 码 转 换 成 另 一 种 单字 节 编 码 。 转 换 表 在 排序 时 会 重 排 字符 。 使 用 转换 表 进 行 排序 的 数据 集 包 含 一 个 排序 指示 符 ， 它 可 在 CONTENTS 过 程 的 输 


出 中 将 指定 转换 表 显 示 为 排序 序列 。 


编码 为 SAS 系 统 选 项 ENCODING= 支 持 的 所 有 编码 ， 包 括 多 字 节 编码 。 字 符 会 从 SAS 会 话 编码 转 码 到 指定 的 编码 ， 然 后 使 用 二 进 制 排序 。 使 用 编码 值 进 行 排序 的 数据 集 包含 一 个 排序 指示 符 ， 它 可 在 


CONTENTS 过 程 的 输出 中 将 指定 编码 值 显示 为 排序 序列 。 


排列 规则 。 根 据 指定 语言 规则 对 字符 进行 排序 ， 该 结果 与 字典 、 电 话 本 和 书本 索引 中 使 用 的 排序 类 似 。SAS 合 并 了 UNICODE 国 际 组 件 ICU (International Components for 


. LIGNUISTIC 指 定语 言 
排序 ， 该 语言 排序 兼容 标准 化 的 Unicode 排 序 算法 UCA (Unicode Collation Algorithm) 。 在 指定 了 选项 LINGUSTIC 后 ， 还 可 以 为 其 指定 其 他 选项 来 提供 更 加 丰富 


Unicode) ， 并 提供 了 语言 排序 例 程 来 实现 语言 
的 排序 功能 ， 例 如 对 中 文中 的 音标 或 欧洲 语言 中 的 重音 符号 进行 区 分 。 


关于 该 选项 的 使 用 ， 请 参考 SAS 帮 助 文档 进行 学 习 。 


8.2.3 ”时 区 选项 TIMEZONE= 


在 SAS 9.4 中 ，SAS 支 持 了 新 系统 选项 TI1MEZONE=， 该 选项 允许 用 户 指定 时 区 1D 或 时 区 名 称 。 若 其 默认 值 为 空 ， 表 示 SAS 的 时 区 与 客户 端的 时 区 相同 。 时 区 1D 指 的 是 SAS 定 义 的 地 区 /区 域 值 格式 ， 例 
如 'Asia/Beijing'。 时 区 名 称 为 指定 3 个 或 4 个 字符 的 时 区 名 称 ， 例 如 'CST'。 指 定时 区 1D 和 时 区 名 称 相应 的 SAS 代 码 如 下 : 








options timezone='Asia/Beijing'; 
options timezone='CST'} 











设置 的 时 区 值 会 影响 如 下 SAS 组 件 。 

“ 事件 或 日 志 记 录 的 时 间 。 

“ 数据 集 创建 或 修改 的 时 间 。 

日 期 和 日 期 事件 函数 : DATE、DATATIME、TIME、TODAY。 

. 时 区 函数 : TZONEOFF、TZONEID、TZONENAME、TZONES2U、TZONEU2S。 


:时 区 格式 : B8601DXw.、B8601LXw.、B8601TXw.、E8601DXw.、E8601LXw.、E8601TXw.、NLDATMZw.、NLDATMTZw.、NLDATMWZw.。 
8.2.4 语言 切换 选项 


从 SAS 9.3 开 始 ， 引 入 了 语言 切换 (Language Switching) 选项 ， 并 且 该 选项 在 SAS 9.4 中 得 到 了 增强 。 通 过 切换 语言 可 以 在 同一 个 SAS 会 话 中 产生 多 种 语言 形式 的 报表 。 在 SAS Unicode Server 上 ， 
这 种 功能 尤其 有 用 。SAS Unicode Server 是 编码 为 UTF-8 的 SAS 会 话 ， 因 为 该 编码 基本 上 包含 了 世界 上 大 部 分 的 文字 ， 所 以 在 Unicode Server 中 使 用 语言 切换 选项 ， 能 够 保证 各 种 语言 的 字符 可 正确 显示 。 


SAS 的 语言 切换 特性 由 以 下 几 组 选项 确定 ， 这 些 选项 在 SAS 启 动 时 有 效 。 
(1) LOGLANGCHGINOLOGLANGCHG 


用 于 设置 SAS 日 志 消 息 的 语言 是 否 可 以 在 SAS 启 动 后 被 更 改 。LOGLANGCHG 为 可 以 ，NOLOGLANGCHG 为 不 可 以 ， 默 认为 NOLOGLANGCHG。 如 果 指 定 了 LOGLANGCHG， 则 日 志 语 言 由 选项 
LSWLANG= 确 定 。 


(2) ODSLANGCHG|INOODSLANGCHG 


用 于 设置 ODS 输出 中 消息 文本 的 语言 是 否 可 以 在 SASs 启 动 后 被 更 改 。ODSLANGCHG 为 可 以 ，NOODSLANGCHG 为 不 可 以 ， 默 认为 NOODSLANGCHG。 如 果 指 定 了 ODSLANGCHG， 则 ODS 输出 的 语 
言 由 选项 LSWLANG= 确 定 。 


(3) LSWLANG 


用 于 在 当 LOGLANGCHG 和 /或 ODSLANGCHG 指 定时 ， 指 定 日 志 消 息 和 ODS 输 出 中 SAS 消 息 文 本 的 语言 ， 所 选择 的 语言 必须 与 会 话 编码 兼容 。 该 选项 的 默认 值 为 LOCALE， 表 示 为 当前 会 话 Locale 的 语 
言 。 该 选项 不 会 影响 NL 格式 的 行为 。 


(4) LOGLANGENGINOLOGLANGENG 


用 于 将 SAS 日 志 消 息 的 语言 指定 为 英语 。 而 且 ， 如 果 SAS 启 动 时 指定 了 ODSLANGCHG， 则 在 SAS ODS 输出 中 SAS 消 息 文 本 的 语言 也 为 英语 ， 如 果 其 为 NOODSLANGCHG (默认 值 ) ， 则 ODS 输 出 中 
SAS 消 息 文 本 的 语言 为 SAS 会 话 启动 时 的 语言 。 


通过 这 组 选项 ， 可 实现 如 下 场景 。 

场景 1: ODS 输 出 中 SAS 消 息 文本 的 语言 符合 SAS 启 动 时 选项 LOCALE= 的 设置 ， 而 日 志 消 息 的 语言 始终 为 英语 。 

想 要 实现 上 述 场景 ， 启 动 SAAS 会 话 时 指定 LOGLANGENG。 注 意 ， 在 这 种 情况 下 ，SAS 启 动 后 通过 OPTIONS 语 句 改变 的 Locale 不 会 影响 ODS 输 出 的 消息 文本 语言 。 
场景 2: ODS 输出 中 的 SAS 消 息 文本 语言 符合 当前 SAS 会 话 的 Locale， 而 日 志 消 息 为 英语 。 在 SAS Unicode Server 中 此 场景 比较 常用 。 


要 实现 此 场景 ， 在 启动 SAs 时 仅 指 定 选项 ODSLANGCHG 即 可 。 在 这 种 情况 下 ，SAs 启 动 后 通过 OPTIONSs 语 句 改变 的 Locale 也 会 影响 9Ds 输 出 的 消息 文本 语言 。 


8.3 ”NL 格式 和 NL 输入 格式 
SAS 提 供 了 NL 格式 (format) 和 NL 输入 格式 (informat) ， 这 些 格 式 能 够 根据 运行 的 SAS 会 话 的 语言 /区 域 来 转换 日 期 、 日 期 时 间 、 货 币 和 数字 的 格式 。 这 样 一 来 ， 使 用 了 同样 的 NL 格式 和 NL 输入 格 
式 的 SAS 代 码 在 不 同 的 语言 /区 域 的 SAS 会 话 中 运行 ， 就 可 得 到 符合 对 应 地 区 语言 文化 习俗 的 日 期 、 日 期 时 间 、 货 币 和 数字 的 表示 形式 。 


NL 格式 (和 NL 输入 格式 ) 与 非 NL 格式 (和 NL 输入 格式 ) 的 使 用 方式 一 样 ， 其 名 称 的 后 级 w 或 w.d 为 输出 和 要 读 入 的 格式 宽度 ， 在 使 用 时 格式 名 称 中 的 w 和 d 可 指定 为 数字 ， 也 可 以 省 略 。 省 略 时 则 使 用 
SAS 定 义 的 默认 值 。 


1.SAS NL 格式 


表 8.5~8.9 给 出 了 常用 的 NL 格 式 ， 并 展示 了 它们 在 不 同 Locale 下 的 输出 示例 。 这 些 示例 中 ， 大 多 数 都 为 省 略 名 称 中 的 格式 宽度 w 或 w.d (即使 用 默认 值 ) 的 输出 结果 。 但 在 有 些 Locale 下 ， 一 些 格式 的 结 
果 会 超过 默认 长 度 ，SAS 会 自动 进行 调整 ， 这 时 可 能 会 产生 非 预 期 的 结果 ， 需 要 显 式 地 指定 更 长 的 格式 宽度 以 显示 正确 格式 。 


表 8.5 日 期 格式 

















午 10 时 16 分 10 秒 


NLDATEw, 2013 年 12 月 24 日 
NLDATELw 2013 年 12 月 24 日 
NLDATEMw. 2013-12-24 
NLDATESw. 2/24/201: 2013-12-24 
NLDATEMDw 12 月 24 日 
NLDATEMDLw. 12 月 24 日 
NLDATEMDMw. 12 月 24 日 
NLDATEMDSw. 12-24 
NLDATEMNw. 二 月 
NLDATEWw. 2013 年 12 月 24 日 星期 
( 乡 
NLDATEYMw. 2013 年 12 月 
NLDATEYMLw. 2013 年 12 月 
NLDATEYMMw. 13 年 12 月 
NLDATEYMSw. 013 2013-12 
NLDATEYRw, 2013 2013 年 
表 8.6 时间 和 日 期 时 间 格 式 
格式 名 称 Locale=zh_CN 

NLTIMEw, 10 时 16 分 10 秒 

NLTIMAPw. 10:16 AM 

NLDATMw. 23Dec2013:20:16:10 2013 年 12 月 24 日 10 时 16 分 10 秒 

NLDATMLw December 23, 2013 08:16:10 PM 2013-12-24 上 午 10:16:10 

NLDATMMw. Dec 23. 2013 08:16:10 PM 2013-12-24 上 午 10:16:10 

NLDATMSw. 12/23/2013 20:16:10 2013-12-24 10:16:10 

NLDATMAPw, December 23, 2013 08:16:10 PM 2013 年 12 月 24 日 上 午 10:16:10 

NLDATMDTw. 2013 年 12 月 24 日 

NLDATMMDw. 12 月 24 日 

NLDATMMDLw. 12 月 24 日 

NLDATMMDMw. 12 月 24 日 

NLDATMMDSw. 12-24 

NLDATMMNw. 一 月 

NLDATMTMw 10 时 16 分 10 秒 

NLDATMW™w. Monday, December 23, 2013 08:16:10 PM | 2013 年 12 月 24 日 星期 二 

NLDATMWNw. 星期 二 

NLDATMYMw. 2013 年 12 月 

NLDATMYMLw. December 2013 2013 年 12 月 

NLDATMYMMw. 13 年 12 月 

NLDATMYMSw. 2013-12 


表 8.7 时 区 格式 


格式 名 称 Locale=en_US Locale=zh_CN 


B8601DAXwW. 201312231T144225-0600 201312241184223+0800 
E8601DAW. T204223-0600 201312241104223+0800 
B8601LXw. 204 104223+0800 

上 8601L 和 WwW. 2013-12-23T14:42:23-06:00 2013-12-24T18:42:23+08:00 
B8601TXw. 2013-12-231T20:42: 2013-12-24T10:42:25+08:00 
E8601TXw. 20:42:253-06:00 10:42:23+08:00 








总 
| 








格式 名 称 Locale=en_US Locale=zh_CN 


NLDATMZW. 23Dec2013:20:42:25 -0600 2013 年 12 月 24 日 10 时 42 分 25 秒 +0800 
NLDATMTZwW. | 20:42:23 -0600 10 时 42 分 24 秒 +0800 
NLDATMWZw. | Mon, Dec 23, 2013 08:42:25 PM -0600 | 2013 年 12 月 24 日 星期 二 上 午 10 时 4 分 25 秒 +0800 呈 





注 : 该 格式 默认 宽度 为 40， 在 Locale 为 zh_CN 时 ， 必 须 指定 更 大 的 长 度 才 可 正确 显示 该 值 。 


表 8.8 ”数字 


NLNUMw.d 2357 


NLNUMIw.d | 3 2357 
NLPCTw.d —58% 
NLPCTIw.d —58% 
NLPCTNw.d —58% 
NLPCTPw.d ( $8% ) 








NLPVALUEw.d 0.0030 0.0030 0.0030 


上 述 表格 给 出 的 是 各 种 格式 默认 宽度 的 w 和 小 数位 qd 对 数字 的 输出 格式 。 除 了 格式 NLBESTw.d 和 NLPVALUEw.d 外 ， 其 他 格式 的 小 数位 〈 即 d 值 ) 默认 为 0。 可 以 指定 d 为 非 0 的 整数 以 对 数字 显示 更 大 的 
精度 ， 例 如 ， 格 式 NLNUM8.2 和 NLPCT7.2 会 将 同样 的 数字 分 别 显示 为 2，356.78 和 -57.68% (各 包含 两 位 小 数 ) 。 


货币 通常 会 遵循 数字 格式 ， 但 是 ， 货 币 符号 的 位 置 在 各 个 国家 可 能 会 不 一 样 。SAS 支 持 命名 形式 为 NLMNLxxxw.d 或 NLMNIxxxw.d 的 各 种 货币 格式 ， 其 中 xxx 指 给 定货 币 的 国际 编码 。 表 8.9 给 出 了 欧元 


(EUR) 和 人 民 币 (CNY) 的 格式 。 对 于 其 他 货币 ， 例 如 USD 表 示 美 元 、AUD 表 示 澳元 ， 需 要 时 请 参考 SAS 帮 助 文档 。 注 意 ， 这 里 仅 根据 Locale 改 变 符号 和 模式 ， 简 单 地 显示 了 数据 中 的 数字 ， 并 不 进行 汇 
率 换算 。 


表 8.9 ”货币 格式 


格式 名 称 Locale=en_US Locale=zh_CN Locale=fr_FR 


NLMNLEURwWd € 2.356.78 2 356.78 € 


NLMNIEURw.d EUR2.,356.78 EUR2,336.78 2 .330,78 EUR 





NLMULCNYw.d RMB2.356.78 RMB2.356.78 2 356.78 RMB 
NLMNICNYw.d CNY2.356.78 2 356.78 CNY 
NLMNYw.d $2.357 ¥2,357 2 357 6 
NLMNYIw.d USD2.357 CNY2.357 2 357 EUR 


2.SAS NL 输入 格式 


下 面 的 一 系列 表 给 出 了 常用 的 NL 输 入 格式 ， 并 展示 了 各 种 输入 格式 在 不 同 Locale 下 省 略 其 名 称 中 的 格式 宽度 w 或 w.d (即使 用 默认 值 ) 时 能 够 读 入 的 日 期 、 日 期 时 间 、 时 间 、 数 字 和 货币 的 示例 。 当 输 
入 数据 会 超过 默认 长 度 时 ， 需 要 显 式 地 指定 更 长 的 格式 宽度 以 正确 读 入 。 


(1) 日 期 、 日 期 时 间 、 时 间 


表 8.10 给 出 了 关于 日 期 、 日 期 时 间 和 时 间 的 NL 输入 格式 ， 以 及 在 Locale 为 en_ US 和 zh_CN 时 ， 这 些 NL 输 入 格式 可 以 处 理 的 部 分 日 期 、 日 期 时 间或 时 间 形 式 的 示例 ， 但 实际 上 这 些 NL 格 式 能 够 正确 地 读 
入 更 多 Locale 下 的 不 同 数据 形式 。 


表 8.10 日 期 、 日 期 时 间 、 时 间 输 入 格式 


格式 名 称 Locale=en_US Locale=zh_CN 
NLDATEw. December 24. 2013 2013 年 12 月 24 日 


20131224:12:39:43、2013-12-24 12:39:43、2013 年 
12 月 24 日 12 时 39 分 43 秒 


NLIIMAPW- 12:39 AM 12:39 AM 、12:39 上 午 


(2) 数字 


NLDATMw. 12/24/13 12:39:43、24Decl13 12:3 





表 8.11 给 出 了 SAS 提 供 的 关于 数字 的 NL 输入 格式 。 


表 8.11 数字 输入 格式 


格式 名 称 Locale=en_US Locale=zh_CN Locale=fr_FR 





NLNUMw.d 2357 
NLNUMIw.d 2357 2359 2357 
NLPCTw.d _580% 
NLPCTIw.d _580% 





(3) 货币 
在 SAS 中 ， 货 币 的 NL 输入 格式 与 NL 格式 大 致 相同 ， 请 参考 上 面 关 于 的 NL 货币 格式 的 描述 ， 或 者 通过 SAS 帮 助 文档 进行 学 习 。 
3. 自 定义 格式 
在 使 用 FORMAT 过 程 定义 格式 时 ， 还 可 以 通过 指定 选项 LOCALE 来 定义 只 能 在 指定 的 Locale 下 可 用 的 格式 。 通 过 多 个 FORMAT 过 程 ， 则 可 定义 在 不 同 Locale 下 使 用 的 不 同 格式 。 
例 8.3: 根据 美国 、 中 国 的 不 同 身高 标准 ， 将 sashelp.class 中 的 记录 进行 分 类 并 输出 。 


首先 定义 两 个 具有 相同 名 称 的 格式 size.， 其 中 一 个 为 在 美国 使 用 的 格式 ， 另 一 个 为 在 中 国 使 用 的 格式 。 因 为 美国 人 的 身高 普遍 较 高 ， 所 以 其 对 身高 进行 分 类 时 的 标准 不 一 样 。 定 义 格 式 的 语法 如 下 : 








proc format lib=saslib.formats; 
value size 
low - 56 = 'Short'" 
56 - 66 = 'Medium' 
66 = high = Ta 3} 





rn 

options locale=zh CN; 

proc format lib=saslib.formats locale; 
value size 

low - 50 = ' 偏 矮 ' 

50 - 60 = "中 等 ' 

60 - high = ' 偏 高 ' ; 




















@ 注 意 ”在 该 代码 中 ， 除 了 涉及 身高 的 分 类 标准 之 外 ， 还 使 用 了 本 地 区 的 语言 。 在 定义 格式 时 ， 如 果 只 是 想 要 对 不 同 的 地 区 使 用 不 同 的 语言 ， 则 可 以 和 SAS 程 序 中 的 其 他 文本 字符 事 一 起 使 用 字符 事 外 
部 化 机 制 ( 后 面 会 介绍 ) 。 


运行 该 段 代码 ， 会 在 逻辑 库 saslib 的 物理 路 径 下 生成 两 个 文件 ， 其 名 称 分 别 为 formats.sas7bcat 和 formats zh_cn.sas7bcat。 因 为 在 第 二 个 FORMAT 过 程 中 指定 了 选项 LOCALE， 所 以 其 文件 名 带 


Locale 信 息 zh_cn。 


接 下 来 按 Locale 使 用 逻辑 库 saslib 中 的 格式 size.， 代 码 如 下 : 








options fmtsearch=(saslib/locale); 
proc print data= sashelp.class (obs=5); 
format height size. ，} 























run; 


OPTIONS 语 句 对 选项 FTMTSEARCH 赋 值 ， 表 示 SAS 根 据 当 前 会 话 的 Locale 去 逻辑 库 中 查找 对 应 的 格式 文件 ， 找 到 后 使 用 该 格式 文件 对 数据 进行 格式 化 ， 如 果 对 应 Locale 的 格式 文件 不 存在 ， 则 使 用 不 带 
Locale 信 息 的 格式 文件 中 定义 的 格式 去 对 数据 进行 格式 化 。 


当前 会 话 Locale 为 zh_CN 时 ，PRINT 过 程 的 输出 如 图 8.8 所 示 。 


当前 会 话 Locale 为 en_US 或 其 他 值 时 ，PRINT 过 程 的 输出 如 图 8.9 所 示 。 


1 | 阿尔 车 雪 
2 | 爱丽 兰 。 女 
3| 芭 区 拉 | 女 | 13 
4 | 凯 吉 = 

导 | 谤 利 | 











图 8.8 ”使 用 自 定义 格式 (Locale=zh_CN) 


3 
—] 


Obs | Name | Sex | Age | Height 


eH = 








14 Tall 











13 | Medilum yg8.0 





Mi 

2 | Alce F 13 | Medium 84.0 
Barbara | F 
Garol F 14 | Medilum 102.5 


Medlum 102.5 





本 Henry Mi 14 


图 8.9 ”使 用 自 定义 格式 (Locale=en_US ) 


同样 ， 也 可 以 使 用 FORMAT 过 程 为 其 他 Locale (例如 fr_FR) 创建 对 应 的 格式 ， 以 便 在 该 地 区 使 用 。 


8.4 ”字符 串 和 字符 处 理 肖 数 


SAS 提 供 了 字符 串 函数 和 CALL 例 程 ， 以 使 用 户 能 够 很 容易 地 处 理 字符 数据 。 许 多 原始 SAS 字 符 串 函数 会 假定 一 个 字符 的 大 小 是 一 个 字 节 ， 但 是 这 种 处 理 仅 适用 于 SBCS 字 符 集中 的 数据 。 在 处 理 DBCS 和 
MBCS 字 符 集中 的 数据 时 ， 有 些 函 数 和 CALL 例 程 不 能 被 正确 处 理 并 产生 正确 结果 。 为 了 解决 这 个 问题 ，SAS 引 入 了 一 组 字符 串 函数 和 CALL 例 程 ， 用 于 处 理 DBCS 和 MBCS 数 据 中 的 字符 串 。 这 类 函数 通常 以 
字母 K 开 始 ， 也 称 为 K 函 数 。 


在 使 用 K 函 数 时 ， 需 要 理解 以 字 节 为 基础 的 偏 移 长 度 和 以 字符 为 基础 的 偏 移 长 度 。 以 字 节 为 基础 的 偏 移 会 假定 指定 的 位 置 是 字符 串 存 储 的 字 节 位 置 。 以 字符 为 基础 的 偏 移 则 假定 指定 的 位 置 就 是 字符 串 中 
字符 的 位 置 。 在 SBCS 环 境 下 ， 一 个 字 节 对 应 一 个 字符 ， 字 节 位 置 也 就 是 字符 位 置 。 在 DBCS 或 MBCS 环 境 下 操作 DBCS 和 MBCS 字 符 或 字符 串 时 ， 这 两 者 存在 很 大 差别 。 


例如 ， 字 符 串 “ 赛 仕 ”， 每 个 字符 存储 为 2 个 字 节 。 当 以 字 节 为 基础 计算 偏 移 时 ，“ 仕 ”的 起 始 位 置 为 ?3， 而 以 字符 为 基础 计算 偏 移 时 ，“ 仕 ”的 起 始 位 置 为 2， 如 表 8.12 所 示 。 


注意 


K 函 数 使 用 以 字符 为 基础 的 偏 移 长 度 ， 可 用 于 处 理 SBCS、DBCS 和 MBCS (UTF-8) 数据 。 关 于 SASs 支 持 的 函数 以 及 这 些 函 数 的 使 用 方法 ， 


data null } 


表 8.12” 字 节 偏 移 和 字符 偏 移 示 例 


请 参考 SAS 帮 助 文档 。 


有 些 原始 函数 也 支持 多 字 节 数据 的 处 理 ， 也 可 以 在 多 字 节 环境 中 使 用 ,例如 ，UPCASE 和 LOWCASE。 
SAS 还 提供 了 NLS 宏 和 宏 浮 数 ， 用 于 在 宏 语 言 中 处 理 DBCS 和 MBCS 数 据 。 关 于 宏和 宏 函 数 及 其 详细 使 用 信息 ， 请 参考 SAS 帮 了 助 文档 。 
例 8.4: 使 用 SAs 提 供 的 函数 取出 字符 串 Company_Name 的 前 4 个 字符 。 


下 面 分 别 以 SUBSTR 遂 数 和 KSUBSTR 函 数 〈K 国 数 ) 为 例 来 实现 此 功能 。 在 Windows 操 作 系统 中 ， 在 简体 中 文 SAS 会 话 中 提交 如 下 代码 : 


company Name=" 赛 仕 软件 研究 开发 〈 北 京 ) 有 限 公司 "; 
Sub Namel=substr (Company Name,1,8); 

Sub Name2=ksubstr (Company Name,1,4); 

put Sub Namel=/Sub Name2=; 


run; 














日 志 窗 口 的 输出 如 图 8.10 所 示 。 


(无 标题 ) 





nu281 
uy282 
nu283 
号 二 是 号 
4285 
4286 


data null ; 

Conpany_Name=" 基 仕 软件 研究 开发 ‘北泉 ) 有 限 公 司 
sub Name1=substr(Company_Name ,1 ,中 ) ; 
SuUb_Name2=KsubSstrteompanuy_MHame ,1 ,4) 3; 

put Sub Mame1= sub Name2=; 

Pun s 





sub -Nane1= 若 

sub Namez 

NOTE : “DATA 1 
实际 引 a 


CPU 时 全 


站 可 ”所 用 时 间 


0.00 
9.90 和 





图 8.10 ”区 函数 操作 字符 串 


上 面 对 Sub_Name1 和 Sub_Name2 的 赋值 语句 分 别 使 用 了 SUBSTR 函 数 和 KSUBSTR 函 数 。 通 过 SUBSTR 函 数 抽取 了 从 第 1 个 字 节 开始 的 8 个 字 节 ; 通过 KSUBSTR 函 数 抽取 了 从 第 1 个 字符 开始 的 4 个 字符 ， 


两 个 函数 执行 结果 都 为 “ 赛 仕 软件 ”。 从 这 里 也 可 以 看 出 ， 使 用 K 函 数 更 加 符合 语言 处 理 习 惯 ， 而 且 不 需要 知道 每 个 字符 人 存储 为 多 少 个 字 节 。 


@ 注 意 ”在 使 用 SUBSTR 函 数 时 ， 如 果 指 定 的 字 节 数 不 能 正好 分 开 字 符 ， 则 会 产生 截断 和 乱码 ， 参 考 如 图 8.11 所 示 的 日 志 窗 口中 的 代码 及 消息 。 因 为 使 用 SUBSTR 函 数 抽 取 从 第 1 个 字 节 开始 的 5 个 字 节 


图 日 志 - 《无 标题 ) 
29r data 
4298 
4299 
生字 日 日 
4301 


_nyull ; 


Company_Nane=“ 短 仁 加 人 忻 研 究 开 点 ( 北 训 ?有 限 公 司 "， 


Trunc Namne=substr{(Company Name,1,.5); 
put Trunc_ Name=; 
Fun ; 


Trunc -8 人 
NOTE: “DATA 1 加 


ja eI) 
| 0.060 


CPU 昌 


ee 





图 8.11 字符 截断 后 的 输出 


8.5 ”文本 字符 串 外 部 化 


软件 产品 的 本 地 化 要 求 展示 给 客户 的 文本 为 本 地 区 语言 。 对 于 SAs 应 用 来 说 ， 意 味 着 其 程序 中 的 文本 字符 串 必须 翻译 。 和 使 用 其 他 语言 开发 的 应 用 程序 一 样 ， 为 了 使 同一 个 SA 程序 能 支持 多 种 语言 ， 需 
要 将 代码 中 的 文本 字符 串 提 取出 来 ， 并 在 需要 使 用 该 字符 串 的 地 方 使 用 其 通用 的 表示 方式 ， 该 过 程 称 为 字符 串 外 部 化 (String Externalizatin) []。 接 着 要 将 所 提取 出 来 的 这 些 字符 串 翻译 成 需要 支持 的 各 种 
语言 ， 随 SAS 程 序 一 起 交付 。 在 SAS 程 序 运 行 时 ，SAS 会 根据 会 话 的 语言 /区 域 设置 自动 加 载 不 同 的 语言 文字 。 


例 8.5: 开发 SAS 程 序 ， 保 证 所 有 文本 在 不 同 的 Locale 下 以 对 应 的 语言 显示 ， 包 括 页 眉 、 页 脚 、 标 签 等 ， 目 前 需要 支持 英语 和 简体 中 文 。 


现 有 的 代码 如 下 : 


$let user=SBJKUX; 

$let aqate=ssysfunc (today(),nldate.); 

proc datasets library=saslib nolist; 
modify order summary; 

label Country = "Supplying Country"; 

label Quantity = "Quantity (in Million)"™"; 

label Price = "Total Price"; 









































UN 
title "Order Summmary by Supplying Country"; 
footnote "Report generated on &adate by &user"™; 
proc report data=saslib.order summary; 

run; 














接 下 来 描述 如 何 一 步 一 步 将 上 述 SAS 代 码 改 写 为 在 不 同 的 Locale 下 以 对 应 的 语言 显示 输出 。 


1. 第 一 步 : 抽取 字符 串 并 生成 .smd 文 件 


SAs 程 序 中 的 所 有 文本 字符 串 都 必须 抽取 出 来 ， 经 过 转换 后 并 放 在 .smd 文 件 中 。 在 .smd 文 件 中 ， 每 个 文本 字符 串 必 须 与 一 个 唯一 名 字 ( 键 名 称 ) 关联 起 来 ， 形 成 键 - 值 对 。 键 名 称 和 键 值 之 间 使 用 等 号 
(=) 联系 起 来 ， 等 号 左 侧 为 键 名 称 ， 右 侧 为 字符 串 ， 即 键 值 。 键 名 称 只 能 包含 AsCll 字 符 ， 其 长 度 不 得 超过 60 个 字符 。 键 值 中 的 非 AsCll 字 符 必 须 为 Unicode 转 义 字符 。 生 成 .smd 文 件 的 过 程 包括 抽取 代码 
中 的 文本 字符 串 、 对 字符 串 进行 翻译 ， 并 将 非 AsCll 字 符 转 换 为 Unicode 转 义 字 符 。 


(1) 抽取 文本 字符 串 


抽取 文本 字符 串 并 将 其 存储 在 扩展 名 为 smd 的 文件 中 。 该 .smd 文 件 的 文件 名 在 下 一 步 中 会 用 作 SAS 数 据 集 名 称 ， 所 以 该 名 称 必须 符合 SAS 数 据 集 名 称 的 命名 规范 。 在 该 例 中 ， 将 文件 命名 为 
myapp.smd。 


在 抽取 文本 字符 串 时 ， 如 果 字 符 串 中 仪 包含 文本 字符 ， 则 直接 使 用 该 字符 串 ; 如 果 字 符 串 中 包含 变量 ， 则 需要 使 用 蔡 换 字符 串 。 若 字符 串 中 只 包含 一 个 变量 ， 则 该 变量 位 置 使 用 %s 代 蔡 ， 如 果 包 含 乡 个 
变量 ， 则 使 用 %#ns 蔡 换 。9%6#1s、9%#2s、http://www.hzcourse.comyresource/readBook?path=/openresources/teach_ ebook/uncompressed/15092/OEBPS/Text/...、%#ns 分 别 表示 在 该 字符 串 中 
出 现 的 第 1、 第 2、http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/OEBPS/Text/...、 第 n 个 替换 字符 串 。 


对 应 本 例 的 myapp.smd 文 件 的 内 容 如 下 : 





Country Label=Supplying Country 

Quantity Label=Quantity (in Million) 

Price Label=Total Price 

Report Title=Order Summary by Supplying Country 
Report Fn=Report Generated on %#1ls by %#2s 



































当 SAS 程 序 中 的 文本 字符 串 很 多 时 ， 推 荐 使 用 如 myapp.report:title.ui、myapp.report.footnote.ui、myapp.summary.label1.ui 等 这 些 更 能 表示 字符 串 使 用 意义 或 位 置 的 键 名 称 。 此 外 ， 还 可 在 .smd 
文件 中 添加 注释 ， 注 释 行 以 # 开 始 。 


如 果 文 本 字符 串 中 包含 符号 %， 则 使 用 两 个 上 自分 号 (%%) 来 表示 。 例 如 ， 要 表示 字符 串 “Increase: 98%”， 则 .smd 文 件 中 对 应 的 键 - 值 对 如 下 : 





msg note=Increase: 98%$ 
在 .smd 文 件 中 ， 还 可 使 用 宏 变 量 。 例 如 ， 使 用 宏 变量 &osname 的 代码 如 下 : 
pgm3 osname ui = Operating System: &osname . 


(2) 翻译 文本 字符 串 


接 下 来 要 将 该 .smd 文 件 中 的 每 个 字符 串 翻 译 成 需要 支持 的 语言 。 在 本 例 中 需要 翻译 成 简体 中 文 ， 翻 译 时 要 保持 替换 字符 串 “%#1s” 和 “%#2s” 的 位 置 。 翻 译 后 的 内 容 如 下 : 





Or 


Country Label= 供 应 国家 
Quantity Lapel= 订 单 量 〈 百 万 ) 
Price Label= 总 价 

t 家 汇总 的 订单 






























































Report Title = 按 供应 国家 
Report Fn=gs#2s 于 g&%#1s 生 成 此 报表 

















(3) 使 用 Unicode 转 义 字符 


因为 .smd 文 件 中 只 能 包含 ASCll 字 符 ， 所 以 不 能 以 ASCII 表 示 的 所 有 字符 都 必须 使 用 Unicode 转 义 序列 来 表示 。Unicode 转 义 序列 的 格式 为 \uxxxx， 其 中 xxxx 是 该 字符 Unicode 编 码 的 十 六 进 制 表示 形 
式 。 回 到 本 例 中 ， 上 述 翻 译 后 的 文件 中 的 中 文字 符 必须 转换 为 Unicode 转 义 序列 。 


有 许多 工具 可 实现 该 转换 ， 例 如 JAVA JDK 中 的 native2ascii、 文 本 编辑 器 UltraEdit 等 。SAS 提 供 了 KPROPDATA 冰 数 和 UNCODEC 斥 数 来 实现 该 转换 。 调 用 KPROPDATA 隐 数 进行 转换 的 
宏 %SMD2ASCII 的 代码 如 下 : 














Smacro SMD2ASCII (inf=, outf=,inencoding=, lrecl=); 
data null ; 
attrib tmp length=$ &lrecl } 
infile "&inf™" lrecl=&lrecl } 
input; 
file "&outf" Jrecl=&lrecl } 

tmp = kpropdata( infile ,"uesc", "&inencoding","ascii") } 












































put tmp ， 





UN » 
smend SMD2ASC 











该 宏 %SMD2ASCII 逐 行 读 取 输入 文件 ， 将 不 能 被 ASCII 表 示 的 字符 转换 成 为 Unicode 转 义 序列 ， 表 写 入 输出 文件 。 宏 %SMD2ASCII 的 参数 定义 如 下 : 
.in 全 指定 输入 文件 名 
.outf= 指 定 输出 文件 名 
inencoding= 指 定 输 入 文件 编码 
lrecl= 指 定 读 取 输入 文件 和 写 入 输出 文件 的 记录 长 度 


下 面 调 用 宏 程序 %SMD2ASCII 将 当前 编码 为 euc-cn 的 文件 myapp_han.smd 转 换 为 Uncode 转 义 字 符 文件 myapp_zh_CN.smd。 代 码 如 下 : 

















sSMD2ASCII (inf = c:\sas\data\ch8\smd\myapp han.smg, 
outf = c:\sas\data\ch8\smd\myapp zh CN.smd, 





ijnencoding = euc-cn, 
Jrecl = 300 ) ， 








转换 后 的 文件 在 下 一 步 创 建 数据 集 时 需要 使 用 ， 这 里 要 求 其 文件 名 为 在 原文 件 名 的 基础 上 加 上 对 应 的 Locale 标 识 符 。 例 如 所 生成 的 文件 myapp_zh_CN.smd 的 内 容 如 下 : 





COUNTRY LABEL=\u4f9b\u5e94\u56fd\u5bb6 
QUANTITY LABEL=\u8ba2\u5355\u91cf (\u767e\u4e07) 
PRICE LABEL=\u603b\u4ef 
REPORT TITLE=\46309\u4f9b\u5e94\u56fd\u5bb6\u6c47\u603b\u7684\u8ba2\u5355 
REPORT FN=\u7531"%#2s"\u4e8e"%#1s"\u751f\u6210\u6b64\u62a5\u8868 
































~ 












































到 这 里 ， 已 经 准备 了 两 个 文件 ，myapp.smd 和 myapp_zh_CN.smd。 如 果 需 要 支持 其 他 语言 /地 区 ， 则 使 用 上 述 步骤 准备 对 应 的 .smd 文 件 。 


2. 第 二 步 : 根据 .smd 文 件 创建 数据 集 


SAS 提 供 了 宏 浮 数 %SMD2DS， 用 以 将 在 上 一 步 中 准备 好 的 .smd 文 件 中 的 本 地 化 信息 收集 到 一 个 SAS 消 息 数据 集中 。 宏 函数 %SMD2DS 在 SAS AUTOCALL 逻 辑 库 中 ，SAs 启 动 时 会 自动 加 载 ， 可 直接 使 
用 。 其 基本 形式 如 下 : 



































$SMD2DS (DIR=, BASENAME=<, LOCALE=><, LIB=>);} 





其 中 : 
. DIR= 指 定 所 有 .smd 文 件 所 在 的 文件 夹 或 目录 。 
" BASENAME= 指 定 包含 本 地 化 信息 的 文件 名 前 级 。 该 名 称 还 用 于 命名 生成 的 包含 这 些 本 地 化 信息 的 SAS 消 息 数据 集 。 
LOCALE= 指 定 需要 处 理 的 所 有 Locale 列 表 ， 各 个 Locale 之 间 使 用 空格 隔 开 。 如 果 不 指定 ， 则 仅 使 用 默认 文件 pasename.smd 来 创建 SAS 消 息 数 据 集 。 
LIB= 指 定 所 创建 的 SAS 消 息 数 据 集 的 逻 辑 库 。 如 果 不 指 定 该 参数 ， 则 自动 将 该 数据 集 存 储 在 WORK 仙 辑 库 。 


在 本 例 中 调用 宏 函 数 %SMD2DSs(0 的 代码 如 下 : 





gsSMD2DS (dir = c:\sas\data\ch8\smqg, 
basename = myapp, 

locale = zh CN， 

lib = saslib);} 








运行 该 代码 ， 所 创建 的 数据 集 saslib.myapp 在 VIEWTABLE 窗 口中 打开 ， 如 图 8.12 所 示 。 


区 = VIETINBLE: Saslib. Myapp 
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图 8.12 SAS 消 息 数 据 集 


该 数据 集中 包含 4 个 变量 : locale、key、lineno 和 和 text。 其 中 locale 表 示 该 行 观测 中 的 text 适 用 的 locale; key 为 键 名 称 ; lineno 为 当 文 本 字符 串 分 为 多 行 时 的 行 号 ; text 为 消息 文本 的 Uncode 转 义 序 
列 。 


3. 第 三 步 : 在 SAs 代 码 中 获取 字符 串 


在 SAs 应 用 程序 代码 中 ， 原 先 使 用 字符 串 的 位 置 可 使 用 SAsMSG 函 数 或 SAsMSGL 函 数 ， 且 通过 键 值 访问 上 一 步 所 创建 数据 集 并 获取 对 应 的 文本 字符 串 。SASM SG 函数 会 根据 当前 SAS 会 话 的 Locale 获 取 
对 应 的 字符 串 ， 其 基本 形式 如 下 : 


i pte 


SASMSG (BASENAME，KEY<，QUOTE | DOUOTE | NOQUOTE><， 蔡 换 字符 串 -1 <，... 蔡 换 字 符 串 -7>>) 



































其 中 : 

BASENAME 是 消息 数据 集 名 称 ， 是 上 一 步 中 使 用 %SMD2DS 宏 函数 创建 的 。 

" KEY 指 消息 的 键 ， 对 应 于 消息 数据 集中 的 变量 Key。 如 果 指 定 的 键 不 存在 ， 则 返回 键 名 称 。 

. QUOTE|DQUOTE |NOQUOTE 分 别 用 于 控制 是 否 在 消息 上 加 引号 、 加 单 引 号 和 加 双 引 号 。 不 指定 该 参数 时 ， 默 认为 DQUOTE。 上 述 3 个 选项 可 分 别 简写 为 Q、D、N。 
. 替换 字符 串 指 消息 文本 中 需要 替换 的 字符 串 ， 例 如 %s、%#18 或 %#2s。 当 存在 多 个 时 ， 需 依次 给 出 。 最 多 可 支持 7 个 替换 字符 串 。 


SASMSGL 函 数 也 可 以 根据 Locale 值 和 Key 从 数据 集中 获取 字符 串 。 但 是 它 不 依赖 于 当前 SAs 会 话 Locale，Locale 值 必须 指定 为 该 函数 的 参数 。 其 基本 形式 如 下 : 



































SASMSGL (BASENAME ， KEY， LOCALE<，QUOTE | DOUOTE | NOOUOTE><， 替 换 字符 串 -1 <， 





其 中 ，LOCALE 为 POSIX Locale 值 (例如 zh_CN) ， 其 他 参数 的 意义 与 SASMSG 国 数 中 一 样 。 关 于 SASMSGL 函 数 的 使 用 ， 这 里 不 再 给 出 示例 。 


在 使 用 SAsMSG 函 数 从 消息 数据 集中 获取 文本 字符 串 后 ， 该 SAs 程 序 的 代码 如 下 : 


Let ds=saslib.myapp; 

[Let user=SBJKUX; 

let aqate=ssysfunc (today(),nldate.); 

proc datasets library=saslib nolist; 
modify order summary; 

label Country = $sysfunc(sasmsg(&ds, Country Label, noquote)); 

label Quantity = Ssysfunc (sasmsg (&ds, Quantity Label, noquote)); 

label Price = %sysfunc (sasmsg (&ds, Price Label, noquote) ); 





ob ob ob 















































run; 

title Ssysfunc(sasmsg(&ds, Report Title, noquote)); 

footnote %sysfunc(sasmsg(&ds, Report FN,noquote, '&adate', &user)); 
proc report data=saslib.order summary; 

LIT 




















与 原始 SAS 程 序 相 比 较 ， 改 动 如 下 : 

* Mlet ds=saslib.myapp; 

SAS 程 序 中 增加 该 语句 ， 用 于 指定 存储 本 地 化 信息 的 消息 数据 集 。 

. let adate=%sysfunc (today0 , nldate.) ; 

在 对 宏 变 量 adate 的 赋值 语句 中 ， 将 使 用 的 格式 从 date. 换 成 NL 格式 nldate.， 以 便 根据 当前 SAS 会 话 的 Locale 将 当天 日 期 转换 为 本 地 格式 。 
在 原来 程序 代码 中 ， 所 有 直接 使 用 文本 字符 串 的 地 方 都 会 通过 SASM SG 函数 从 存储 有 本 地 化 信息 的 消息 数据 集中 读 取 。 


如 图 8.13 和 图 8.14 所 示 分 别 是 修改 后 的 SAS 程 序 在 SAS 会 话 Locale 为 en_US 和 zh_CN 时 的 执行 结果 。 


Order Summary by Supplying Country 






























Amernca 1,812.15 | $271,822.50 
China | 1,1 20.20 $1 68.030.00 
Canada 980.50 | $147.,075.00 
Denmamk 1 .020. $153.,120.00 
France 580.50 | $48/,075.00 
Span 1 20.20 $108,030.00 
Germany 880.60 | $132.090.00 
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图 8.13 ”英语 报告 (Locale=en_US) 
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图 8.14 ”中文 报告 (Locale=zh_CN) 
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如 果 在 存储 有 本 地 化 信息 的 消息 数据 集中 不 存在 当前 SAS 会 话 Locale，SASMSG 函 数 会 使 用 数据 集中 的 Locale 为 en_US 时 的 字符 串 。 如 图 8.15 所 示 为 该 SAS 程 序 在 SAS 会 话 Locale 为 fr FR 时 运行 的 结 
果 。 其 中 页 眉 、 标 签 都 为 英语 ， 页 脚 中 文本 部 分 也 为 英语 ， 但 页 脚 中 的 日 期 因为 使 用 了 NL 格式 nldate.， 所 以 显示 为 法 语 。 
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图 8.15 无 本 地 化 消息 的 Locale 下 的 输出 (fr_FR) 
[1 未 被 外 部 化 的 字符 串 ， 称 为 硬 编码 字符 串 (Hard-coded String) 。 


8.6 本章 小 结 


前 面 介绍 了 SAS 提 供 的 NLS 特 性 ， 知 道 它 是 用 于 开发 多 语言 支持 的 SAS 应 用 程序 的 。 在 理解 了 选项 LOCALE=、ENCODING= 的 基础 上 ， 开 发 多 语言 支持 的 SAS 程 序 时 需要 注意 以 下 几 个 方面 : 


. 程序 中 识 入 的 文本 字符 串 。 在 需要 时 将 座 入 的 文本 字符 串 外 部 化 。 


* 级 联 字符 事 。 级 联 是 将 两 个 或 多 个 文本 字符 串 组 合成 一 个 字符 串 的 操作 。 但 是 各 种 语言 的 语法 结构 可 能 会 不 一 样 ， 级 联 可 能 会 产生 语法 问题 ， 最 好 避免 对 要 翻译 的 字符 囊 进 行 级 联 。 


* 字符 串 处 理 函 数 。 在 需要 使 用 字符 事 处 理 函 数 时 ， 使 用 对 应 的 开 函 数 。 如 果 需 要 使 用 对 字符 串 进行 操作 的 宏 或 宏 函 数 ， 也 使 用 对 应 的 NLS 宏 和 宏 函 数 。 


` 在 需要 输出 日 期 、 时 间 、 日 期 时 间 、 数 字 和 货币 时 ， 使 用 可 以 随 着 Locale 改 变 的 NL 格 式 。 而 输入 格式 需要 根据 要 读 取 的 数据 的 形式 指定 。 


如 果 SAS 会 话 编码 为 DBCS 或 MBCS， 则 检查 PUT 和 INPUT 语 句 中 的 列 指针 。 列 指针 会 假定 每 个 字符 显示 为 一 列 。 但 是 在 DBCS 或 MBCS 编 码 中 ， 一 个 字符 不 等 于 一 个 字 节 或 一 询 ， 这 时 可 能 会 


指针 控制 返回 未 知 的 结果 。 


第 9 章 ”描述 性 统计 分 析 


第 10 章 ”参数 估计 与 假设 检验 


第 11 章 ”方差 分 析 


第 12 章 主 成 分 分 析 与 因子 分 析 


SAS 统 计 分 析 和 时 间 序 列 预 测 


引起 SAS 列 


第 15 章 ”回归 分 析 
第 16 章 LOGISTIC 回 归 分 析 
第 17 章 ”时 间 序 列 分 析 


第 18 章 ”SAS 数据 挖掘 的 一 般 流程 


第 9 章 ” 摘 述 性 统计 分 析 


统计 学 是 关于 数据 资料 的 收集 、 整 理 、 分 析 和 推断 的 科学 ， 包 括 描述 性 统计 学 和 推断 统计 学 两 个 基本 组 成 部 分 。 描 述 性 统计 学 研究 如 何 收集 反映 客观 现象 的 数据 ， 并 对 所 收集 的 数据 进行 加 工 处 理 ， 然 
后 以 适当 的 形式 进行 展示 ， 进 而 通过 综合 概括 与 分 析 得 出 反映 客观 现象 规律 性 的 数量 特征 。 内 容 包括 统计 数据 的 收集 方法 、 数 据 的 加 工 处 理 方法 、 数 据 的 显示 方法 、 数 据 分 布 特征 的 概括 和 分 析 方 法 等 。 推 
断 统 计 学 是 研究 如 何 根据 已 有 的 数据 去 推断 更 多 数据 的 数量 特征 的 方法 ， 它 是 在 对 已 有 数据 进行 描述 性 分 析 的 基础 上 ， 对 更 多 数据 的 数量 特征 在 一 定 的 概率 范围 内 做 出 的 推断 。 


统计 研究 过 程 的 起 点 是 统计 数据 ， 终 点 是 探索 出 客观 现象 内 在 的 数量 规律 性 。 如 果 整 理 搜集 到 的 数据 是 总 体 数据 ， 如 人 口 普查 数据 ， 则 经 过 描述 性 统计 分 析 之 后 就 可 以 达到 认识 总 体 数量 规律 性 的 目的 
了 ; 如 果 所 获得 的 数据 只 是 研究 总 体 的 一 部 分 数据 ， 如 某 种 药品 的 试验 效果 数据 ， 要 找到 总 体 的 数量 规律 性 ， 则 必须 应 用 概率 论 的 理论 ， 并 根据 样本 信息 对 总 体 进行 科学 的 推断 。 


描述 性 统计 学 和 推断 统计 学 的 划分 ， 反 映 了 统计 方法 发 展 的 前 后 两 个 阶段 ， 同 时 也 反映 了 应 用 统计 方法 探索 客观 现象 数量 规律 的 不 同 过 程 。 本 书 第 二 篇 主要 介绍 描述 性 统计 学 和 推断 统计 学 的 基本 概念 
和 原理 ， 并 结合 实例 介绍 如 何 使 用 SAs 进 行 描述 性 统计 分 析 和 推断 统计 ， 以 发 现 客观 规律 。 


描述 性 统计 是 整个 统计 学 的 基础 ， 若 没有 描述 统计 收集 可 靠 的 统计 数据 并 提供 有 效 的 分 析 和 处 理 ， 即 使 再 科学 的 统计 推断 方法 也 难以 得 出 切合 实际 的 结论 。 本 章 主 要 介绍 统计 学 中 的 一 些 基 本 概念 和 各 
种 描述 性 统计 量 的 计算 方法 ， 以 及 如 何 运用 SAS 中 PROC 步 进行 描述 性 统计 量 的 计算 。 


9.1 基本 概念 
统计 学 中 的 概念 比较 多 ， 为 了 便于 读者 对 以 后 各 章节 的 内 容 进行 学 习 ， 这 一 节 里 集中 介绍 常用 的 基本 概念 。 


9 


一 


.1 总体、 个 体 和 样本 


总 体 、 个 体 和 样本 是 统计 学 中 3 个 最 基本 的 概念 。 我 们 称 研究 对 象 的 全 体 为 总 体 (Populations) ; 称 组 成 总 体 的 每 个 单位 为 个 体 或 者 观测 ;从 总 体 中 随机 抽取 n 个 观测 ， 则 称 这 n 个 观测 是 容量 为 n 的 样 
本 (Sample) 。 例 如 ， 在 研究 某 银 行 所 有 客户 的 平均 收入 时 ， 该 银行 客户 的 全 体 就 是 总 体 ， 每 个 客户 就 是 个 体 。 


为 了 研究 该 银行 的 所 有 客户 的 平均 收入 ， 最 精确 的 办 法 就 是 把 每 个 客户 的 收入 都 调查 一 遍 ， 然 而 ， 调 查 所 有 客户 的 收入 需要 人 花费 大 量 的 人 力 、 物 力 和 财力 ， 因 此 ， 更 加 现实 的 做 法 是 从 中 抽取 一 部 分 ， 
比如 ， 随 机 选取 n 个 客户 〈 即 n 个 个 体 ) 进行 调查 ， 然 后 通过 这 n 个 客户 的 平均 收入 去 推断 整个 银行 全 部 客户 的 平均 收入 。 在 这 里 ， 这 nn 个 个 体 就 是 总 体 ( 该 银行 的 所 有 客户 ) 的 一 个 样本 。 


9.1.2 ”人 简单 随机 抽样 


由 于 要 根据 样本 的 信息 对 总 体 进行 推断 ， 因 此 在 进行 抽样 时 就 有 一 定 的 要 求 了 一 一 要 求 每 次 抽取 都 必须 是 随机 的 、 独 立 的 ， 这 样 才能 较 好 地 反映 总 体 的 情况 。 所 谓 随机 的 ， 是 指 每 个 个 体 被 抽 到 的 机 会 
是 均等 的 ， 这 样 抽 到 的 个 体 才 具有 代表 性 。 所 谓 独立 的 ， 是 指 每 次 抽取 之 后 不 能 改变 总 体 的 成 分 。 基 于 这 种 思想 的 抽样 方法 称 为 简单 随机 抽样 。 


在 取得 了 样本 之 后 ， 为 了 选择 合适 的 统计 方法 ， 必 须 明 确 分 析 的 数量 指标 是 什么 类 型 的 变量 。 数 量 指标 根据 取 值 的 特征 可 分 为 连续 变量 (Continues Variable) 和 分 类 变量 (Categorical Variable) 。 
连续 变量 指 的 是 取 值 在 两 个 数值 之 间 可 以 取 任 意 值 的 变量 ,例如 气温 ， 可 以 是 22.34*C 或 者 22.98"C， 或 者 是 -10"C~40°C 的 任何 数值 。 不 是 所 有 的 数值 变量 都 是 连续 变量 ， 例 如 年 龄 ， 取 值 只 能 是 整数 。 
对 于 这 类 只 能 取 整 数值 ， 但 取 值 和 连续 变量 有 线性 关系 的 变量 ， 我 们 通常 也 当 作 连续 变量 来 处 理 。 


分 类 变量 的 取 值 只 能 是 有 限 个 ， 可 以 是 数值 ， 也 可 以 是 字符 ,通常 表现 为 互 不 相 容 的 类 别 或 者 属性 。 分 类 变量 根据 取 值 的 特征 可 以 分 为 定 类 变量 (Nominal Variable) 和 有 序 变 量 (Ordinal 
Variable) 。 定 类 变量 是 指 所 有 类 别 或 者 属性 之 间 无 程度 和 顺序 的 差别 ， 如 性 别 ( 男 、 女 ) ， 药 物 反 应 (阴性 、 阳 性 ) ， 血 型 (O、A、B、AB) 。 有 些 定 类 变量 的 取 值 也 可 以 是 数值 ， 例 如 ， 性 别 可 以 用 0 
和 1 表示 ，0 代 表 男 性 ，1 代 表 女 性 ， 这 时 0 和 1 之 间 没 有 顺序 大 小 的 关系 。 和 定 类 变量 不 同 的 是 ， 有 序 变 量 的 取 值 之 间 存 在 顺序 关系 ， 但 是 两 个 取 值 之 间 的 “距离 ”不 易 量 化 例如， 饮料 杯 尺寸 (小 、 中 、 
大 ) ， 反 应 (非常 不 同意 、 不 同意 、 同 意 、 非 常 同意 ) 。 


9.1.4 ”参数 、 统 计量 和 自由 度 


参数 是 描述 总 体 特 征 的 数量 指标 。 例 如 ， 上 面 所 提 到 的 某 银行 所 有 客户 的 平均 收入 ， 某 工厂 某 个 批 次 产品 的 合格 率 等 。 由 于 总 体 数 据 通常 是 未 知 的 ， 因 此 ， 参 数 往往 是 一 个 未 知 数 。 与 参数 所 对 应 的 是 
我 们 通常 提 及 的 统计 量 ， 统 计量 是 摘 述 样本 特征 的 数量 指标 ， 例 如 样本 的 均值 和 方差 等 。 统 计量 是 根据 样本 数据 计算 得 出 的 ， 随 着 样本 的 不 同 而 有 所 差异 ， 所 以 它 是 关于 样本 的 函数 。 用 由 样本 数据 计算 出 
来 的 统计 量 来 估计 相应 总 体 的 参数 ， 是 推断 统计 的 重要 内 容 。 

自由 度 是 指 某 一 统计 量 中 变量 可 以 自由 取 值 的 个 数 ， 通 常用 DF 表 示 。 假 设 某 个 统计 量 中 的 变量 X 共 有 10 个 取 值 ， 分 别 为 X1，x2，…，x10， 则 DF=10。 如 果 变 量 X 的 n 个 取 值 受到 k 个 条 件 的 制约 ， 则 
DF=n-k， 例 如 ， 如 果 有 约束 条 件 >xi=195， 则 DF=9。 

例如 ， 欲 了 解 某 市 的 中 学 教育 情况 ， 那 么 该 市 的 所 有 中 学 则 构成 了 一 个 总 体 ， 其 中 每 一 所 中 学 都 是 1 个 个 体 。 从 全 市 中 学 中 随机 抽取 了 10 所 中 学 ， 则 这 10 所 中 学 就 构成 了 一 个 样本 。 在 这 项 调查 中 ， 若 


主要 考察 的 是 升学 率 ， 那 么 升学 率 就 是 一 个 变量 。 若 做 这 项 调查 的 目的 是 了 解 全 市 的 平均 升学 率 ， 那 么 升学 率 的 平均 值 就 是 一 个 参数 。 而 用 样本 的 升学 率 计 算出 来 的 平均 升学 率 就 是 一 个 统计 量 。 由 于 随机 
抽取 的 这 10 所 中 学 的 升学 率 之 间 相 互 没有 依赖 关系 ， 即 可 以 自由 取 值 ， 所 以 统计 量 平 均 升 学 率 的 自由 度 DF=10。 


9.1.5 ”随机 变量 及 概率 分 布 


在 自然 界 和 社会 上 发 生 的 现象 是 多 种 多 样 的 ， 有 一 类 现象 ， 在 一 定 条 件 下 必然 发 生 ， 例 如 ， 向 上 抛 石子 必然 落下 ， 同 性 电荷 必 相 互 排斥 ， 这 类 现象 称 为 确定 性 现象 。 同 时 ， 自 然 界 和 社会 上 还 存在 着 另 


一 类 现象 ， 例 如 ， 在 相同 条 件 下 抛 同一 枚 硬币 ， 其 结果 是 可 能 正面 朝 上 ， 也 可 能 是 反面 朝 上 ， 并 且 每 次 抛掷 之 前 无 法 肯定 抛掷 的 结果 是 什么 。 这 类 现象 ， 在 一 定 条 件 下 ， 可 能 出 现 这 种 结果 或 那 种 结果 ， 但 
是 在 大 量 的 重复 试验 下 ， 它 的 结果 又 呈现 出 固定 的 规律 性 ， 例 如 ， 多 次 重复 抛掷 一 枚 硬币 得 到 正面 彰 上 的 情况 大 致 有 一 半 。 这 种 在 个 别 试 验 中 其 结果 呈现 出 不 确定 性 ， 但 在 大 量 重复 试验 中 其 结果 又 具有 统 
计 规 律 性 的 现象 ， 称 为 随机 现象 。 我 们 通过 随机 试验 和 随机 变量 来 研究 随机 现象 ， 揭 示 其 统计 规律 性 。 


一 个 随机 试验 的 可 能 结果 的 全 体 组 成 一 个 基本 空间 Q， 随 机 变量 X 是 以 Q 为 定义 域 、 取 值 为 实数 的 浮 数 。 通 俗 地 说 ， 随 机 变量 就 是 随机 现象 中 随机 试验 结果 的 函数 。 例 如 ， 投 撕 一 枚 山 子 的 所 有 可 能 结果 
是 出 现 1 点 至 6 点 ， 则 (1 点 ，2 点 ，3 点 ，4 点 ，5 点 ，6 局 ] 就 是 一 个 基本 空间 ， 若 定义 X 为 投掷 一 枚 蜗 子 时 出 现 的 点 数 ， 则 X 为 一 随机 变量 ， 当 投掷 结果 出 现 1 点 、2 点 、3 点 、4 点 、5 点 和 6 点 时 ，X 的 取 值 分 别 为 
1、2、3、4、5 和 6。 可 见 ， 随 机 变量 的 取 值 是 随 试验 的 结果 而 定 的 ， 且 在 试验 中 各 个 结果 的 出 现 有 一 定 的 概率 ， 因 而 随机 变量 的 取 值 也 有 一 定 的 概率 。 概 率 分 布 就 是 用 来 描述 随机 变量 取 值 的 概率 规律 的 函 


数 。 


如 果 随 机 变量 的 取 值 是 离散 值 ， 则 为 离散 型 随机 变量 ， 描 述 离散 型 随机 变量 的 概率 分 布 可 使 用 分 布 列 的 方式 ， 即 给 出 离散 型 随机 变量 的 全 部 取 值 ， 以 及 取得 每 个 值 的 概率 。 常 见 的 离散 型 随机 变量 的 概 
率 分 布 有 单 点 分 布 、 两 点 分 布 、 二 项 分 布 、 几 何 分 布 、 超 几何 分 布 、 泪 松 分 布 等 。 


如 果 随 机 变量 的 取 值 是 连续 值 ， 则 为 连续 型 随机 变量 ， 连 续 型 变量 的 取 值 范围 为 某 个 有 限 区 间 [a，b] 或 (-c%，+co) 。 连 续 型 随机 变量 的 概率 分 布 函数 计算 的 是 随机 变量 X 小 于 任意 已 知 实数 a 的 概率 ， 
表示 为 


a 


FA(a)=P(x<a)= | p(X)dx 


Fx (a) 也 称 为 累积 分 布 函数 (Cumulative Distribution Function，CDF) ; p(x) 称 为 概率 密度 函数 (Probability Density Function，PDF) 。 概 率 密度 函数 体现 的 是 随机 变量 取 某 一 个 值 的 概率 
规律 。 对 累积 分 布 函数 进行 求 导 ， 可 以 得 到 概率 密度 国 数 。 常 见 的 连续 型 随机 变量 的 概率 分 布 有 均匀 分 布 、 正 态 分 布 和 指数 分 布 等 。 


1. 伯 努 利 试验 和 二 项 分 布 


最 简单 的 随机 试验 是 只 有 两 种 试验 结果 的 随机 试验 ， 也 称 伯 努 利 试验 。 如 抛 一 枚 硬币 ， 要 人 么 正面 朝 上 ， 要 么 反面 朝 上 ; 检查 一 个 产品 的 质量 ， 要 么 合格 ， 要 么 不 合格 。 一 般 地 ， 把 这 两 种 试验 结果 分 别 
看 作 “ 成 功 ” 和 “失败 ”， 用 数值 1 和 0 表示 ， 定 义 一 次 伯 努 利 试验 成 功 的 次 数 为 随机 变量 xX， 则 X 的 概率 分 布 是 一 个 最 简单 的 分 布 类 型 ， 即 两 点 分 布 。 伯 努 利 试验 是 一 种 非常 重要 的 概率 模型 ， 历 史上 ， 它 是 
最 早 得 到 研究 的 概率 模型 之 一 ， 也 是 得 到 最 多 研究 的 概率 模型 之 一 ， 在 理论 研究 上 具有 重要 的 意义 ， 概 率 论 中 著名 的 大 数 定律 也 是 建立 在 其 基础 之 上 ; 同时 ， 它 有 着 广泛 的 实际 应 用 ， 例 如 在 工业 产品 质量 
检查 中 。 


若 将 伯 努 利 试验 重复 n 次 ，n 是 一 个 固定 的 数值 ， 则 称 为 n 重 伯 努 利 试验 。 在 n 次 试验 中 ， 每 次 成 功 的 概率 为 p， 成 功 的 次 数 对 应 于 离散 型 随机 变量 X， 则 X 的 概率 分 布 就 是 一 个 二 项 分 布 (Binomial 
Distribution) 。 需 要 强调 的 是 ， 在 n 重 伯 努 利 试验 中 ， 每 次 试验 成 功 的 概率 都 是 一 样 的 ， 并 且 是 相互 独立 的 。 记 n 重 伯 努 利 试验 中 成 功 k 次 的 概率 为 b (k; n，p) ， 计 算 方 法 如 下 : 
ny kx nk 
b(n.p)= (1 jp1-p) 
bv) 


为 了 对 二 项 分 布 有 个 直观 了 解 ， 图 9.1 中 分 别 作 出 了 p=0.1、p=0.3、p=0.5 时 二 项 分 布 的 分 布 曲线 ， 横 坐标 是 成 功 的 次 数 K， 纵 坐标 是 对 应 k 的 概率 。 在 图 9.1 中 ， 最 左边 的 一 条 曲线 为 p=0.1 的 二 项 分 
布 ， 中 间 一 条 曲线 代表 p=0.3 的 二 项 分 布 ， 最 右边 的 一 条 曲线 代表 p=0.5 的 二 项 分 布 。 从 图 中 可 以 看 出 ， 对 于 固定 的 "和 p， 当 Kk 增加 时 ，b (k; n，p) 先 增 加 ， 在 达到 某 个 极 大 值 后 ， 再 下 降 。 p 越 接近 
0.5， 分 布 曲线 形状 越 对 称 。 


Binomial Distribution 
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图 9.1 二 项 分 布 概率 密度 曲线 
2. 泊 松 分 布 (Poisson Distribution ) 


泊 松 分 布 是 二 项 分 布 的 近似 分 布 ， 它 由 法 国 数学 家 泊 松 引入 。 在 很 多 应 用 问题 中 ， 我 们 常常 遇 到 这 样 的 伯 努 利 试 验 ，n 大 ，p 小 ， 而 乘积 A= np 大 小 适中 ， 对 于 这 类 情况 ， 就 可 以 将 二 项 分 布 转化 为 泊 松 
分 布 来 计算 。 


泊 松 分 布 的 概率 密度 函数 为 ““ ， 其 中 为 参数 。 泊 松 分 布 常用 来 描述 单位 时 间 内 随机 事件 发 生 的 次 数 ， 和 表示 单位 时 间 内 (单位 面积 内 ) 随机 事件 的 平均 发 生 率 。 在 自然 界 中 ， 很 多 分 布 都 服从 泊 松 分 
布 ， 例 如 社会 生活 中 ， 一 定时 间 内 电台 中 得 到 的 呼叫 数 ， 一 定时 间 内 到 达 某 公共 汽车 站 的 乘客 数 等 都 服从 泊 松 分 布 ， 因 此 ， 在 运筹 学 及 管理 科学 中 泊 松 分 布 占有 重要 地 位 。 在 物理 学 中 ， 放 射 性 分 裂 落 到 某 
区 域 的 质子 的 点 数 、 显 微 镜 下 落 到 某 区 域 中 的 血球 或 微生物 的 数目 都 服从 泊 松 分 布 。 在 二 项 分 布 的 应 用 中 ， 当 p 相 当 小 时 (p<0.1) ，“%… 。 


图 9.2 是 对 应 于 不 同 参数 和 的 泊 松 分 布 图 ， 横 轴 代 表 随 机 事件 发 生 的 次 数 k， 纵 轴 代 表 概 率 。4 条 曲线 从 左 到 右 依次 为 pdf_1、pdf_2、pdf_3 和 pdf_ 6， 分别 代表 了 和 =1，2，3，6 时 的 泊 松 分 布 的 概率 密度 
曲线 。 


3. 正 态 分 布 (Normal Distribution) 


若 连 续 型 随机 变量 的 概率 密度 函数 一 ，-oo<x< +co， 其 中 oa>0，h 与 o 均 为 参数 ， 则 该 连续 型 随机 变量 服从 正 态 分 布 ， 记 为 N (h，0“) 。 特 别 地 ， 当 h=0，a=1 时 ， 该 分 布 为 标准 正 态 分 布 ， 记 为 
N (0，1) 。 任 何 正 态 分 布 都 可 以 转化 成 标准 正 态 分 布 。 正 态 分 布 是 自然 界 中 最 常见 的 一 种 分 布 ， 例 如 测量 的 误差 ， 炮 弹 落 点 的 分 布 ， 人 的 生理 特征 如 身高 、 体 重 等 ， 农 作物 的 收获 量 ， 工 厂 出 产 的 产品 尺 
寸 如 直径 、 长 度 、 宽 度 、 高 度 等 ， 都 近似 服从 正 态 分 布 。 一 般 来 说 ， 若 影响 某 一 数量 指标 的 随机 因素 很 多 ， 而 每 个 因素 所 起 的 作用 都 不 太 大 ， 则 这 个 指标 服从 正 态 分 布 。 正 态 分 布 具 有 许多 良好 的 性 质 , 许 
多 分 布 可 用 正 态 分 布 来 近似 ， 如 二 项 分 布 ， 另 外 一 些 分 布 又 可 以 通过 正 态 分 布 来 导出 ， 如 T 分 布 、Gamma 分 布 、F 分 布 等 。 因 此 ， 正 态 分 布 在 理论 研究 方面 也 有 着 非常 重要 的 作用 。 
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Poisson Distribution 
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图 9.2” 泊 松 分 布 概率 密度 曲线 


一 般 正 态 分 布 的 密度 函数 p (x) 的 曲线 如 图 9.3 所 示 ， 图 中 的 3 条 曲线 pdf_1、pdf_25 和 pdf_5 表 示 N (0，1) ，N (0，0.25*) 及 N (0，0.5*) 的 分 布 形状 。 不 难看 出 ， 正 态 分 布 具 有 很 好 的 性 


，P (x) 在 x=H 处 达到 最 大 ， 整 个 分 布 曲线 关于 x=H 对 称 ， 当 o 不 同时 ，p (x) 的 形状 也 不 同 ， 当 o 越 小 时 ,分布 越 集中 在 x=b 附 近 ， 当 o 越 大 时 ,分布 越 平坦 ， 这 里 n=0。 


若 随 机 变量 Xx 服从 正 态 分 布 N (hu，a2) ， 则 
P{|X-pn|<o} ~68.27% 
P{|X-pn|<20} 905.45% 


P{|X-n|<30} OE99.73% 


Normal Distribution 
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图 9.3 正 态 分 布 概率 密度 曲线 


也 就 是 说 ， 若 随机 变量 服从 正 态 分 布 ， 则 有 68% 的 取 值 落 在 区 间 (h-o，H+0) 中 ， 有 95% 的 取 值 落 在 区 间 (h-2G，h+20) 中 ， 而 几乎 99.7% 的 取 值 是 落 在 〈h-3G，h+30) 之 中 ， 如 图 9.4 所 示 。 这 也 
是 质量 管理 中 著名 的 6Sigma 管 理 方法 的 理论 基础 。 


Useful Percentages for Normal Distnbution 








re 
Pe 


i on i wii i i i i i i i i ii i i i on i i i oil oii i i 
TT 
[ET 


ET 


in reer SE Es se 


- 下 
| 
: | ’ 
| 上 
| | :~、 
| | 


U30 WL-20 -0 h UL+0 LU+20 +30 


图 9.4 ” 正 态 分 布 累 计 概 率 示 意图 


二 项 分 布 、 泊 松 分 布 和 正 态 分 布 是 概率 论 中 最 重要 的 3 个 分 布 ， 在 本 书后 面 的 介绍 中 会 应 用 到 。 除 此 之 外 ， 常 见 的 离散 型 概率 分 布 还 有 几何 分 布 、 超 几何 分 布 、 巴 斯 卡 分 布 等 ， 常 见 的 连续 型 概率 分 布 还 
有 均匀 分 布 、 指 数 分 布 等 ， 这 里 不 详细 介绍 ， 读 者 有 兴趣 可 以 参考 复旦 大 学 出 版 的 《概率 论 基础 》 一 书 。 


9.2 ”白术 性 统计 量 


抽取 了 合适 的 样本 后 ， 在 利用 样本 数据 对 总 体 进行 推断 统计 之 前 ， 有 必要 对 样本 数据 进行 探索 。 一 方面 ， 能 够 及 时 发 现 样本 数据 中 存在 的 问题 ， 例 如 数据 缺失 的 比例 ， 特 殊 值 的 存在 ; 另 一 方面 ， 也 可 
以 观察 数据 的 分 布 是 否 大 致 服从 某 种 分 布 。 这 样 ， 有 利于 提高 后 期 进行 推断 统计 分 析 的 准确 性 。 描 述 性 统计 主要 分 为 三 大 类 : 第 一 类 是 描述 数据 集中 趋势 ， 如 计算 均值 、 中 位 数 、 众 数 等 统计 量 ; 第 二 类 是 
描述 数据 离散 程度 ， 如 计算 方差 、 标 准 差 、 变 异 系数 等 统计 量 ; 第 三 类 是 描述 数据 分 布 ， 如 计算 偏 度 系数 、 峰 度 系数 、 百 分 位 数 、 直 方 图 等 。 


9.2.1 ”描述 数据 集中 趋势 


数据 的 集中 趋势 指 的 是 数据 的 取 值 从 两 边 向 中 间 集 中 ， 常 用 来 反映 数据 的 一 般 水 平 ， 常 用 的 统计 量 有 均值 、 众 数 和 中 位 数 等 。 


例如 ， 一 组 样本 的 取 值 分 别 为 x1，x2，.…，xn， 均 值 用 x 表示 ， 则 均值 的 定义 为 均值 是 衡量 数据 中 心 位 置 的 重要 统计 量 ， 反 映 了 一 些 数据 必然 性 的 特点 。 均 值 由 全 部 数据 计算 得 出 ， 包 含 了 全 部 数 
据 的 信息 ， 具 有 良好 的 数学 性 质 。 当 数据 的 各 个 取 值 之 间 的 差异 程度 较 小 时 ， 用 均值 可 反映 数据 的 一 般 水 平 ， 具 有 较 好 的 代表 性 。 

中 位 数 是 另 一 种 反映 数据 中 心 位 置 的 统计 量 ， 其 计算 方法 是 将 所 有 数据 按 从 小 到 大 的 顺序 排列 ， 如 果 有 奇数 个 数据 值 ， 则 位 于 中 央 的 数据 值 就 是 中 位 数 ， 如 果 有 偶数 个 数据 值 ， 则 中 位 数 为 位 于 中 央 的 
两 个 数据 值 的 平均 。 众 数 是 指 在 数据 中 发 生 频 率 最 高 的 数据 值 ， 是 一 组 数据 分 布 的 峰值 。 


例如 ， 一 次 考试 中 ， 班 级 12 个 同学 的 分 数 如 下 : 98、42、92、90、47、55、85、81、63、79、95、70。 这 组 数据 的 均值 ， 也 就 是 班级 的 平均 分 数 为 这 12 个 数 加 起 来 除 以 12， 为 74.75。 将 这 组 数据 按 
从 小 到 大 排列 ， 如 表 9.1 所 示 。 


表 9.1 按 分 数 大 小 排列 的 学 生成 绩 表 





排 在 中 间 位 置 的 是 79 和 81， 中 位 数 为 80。 


再 如 一 组 样本 的 取 值 为 1、2、1、2、1、3， 这 组 样本 中 数据 值 1 出 现 了 3 次 ， 数 据 值 2 出 现 了 2 次 ， 数 据 值 3 出 现 了 1 次 ， 所 以 众 数 为 1。 

对 定 类 变量 进行 分 析 ， 并 且 变 量 的 取 值 种 类 不 多 时 ， 运 用 众 数 代表 一 般 水 平 比较 合理 。 例 如 ， 某 公司 对 未 来 的 4 个 搬迁 地 址 进行 了 民意 调查 ， 从 返回 的 100 份 调查 问卷 中 ， 答 案 中 有 60 人 选择 了 A 地 ，20 
人 选择 了 B 地 ，15 人 选择 了 C 地 ，5 人 选择 了 D 地 。 众 数 是 A 地 ， 代 表 了 公司 大 部 分 员工 的 意见 。 

由 于 中 位 数 的 大 小 仅 与 数据 的 排列 相关 ， 因 此 中 位 数 不 受 数据 中 个 别 极端 值 的 影响 ， 有 时 更 具有 代表 性 。 例 如 分 析 一 个 有 10 户 居民 的 小 区 居民 收入 水 平时 ， 正 好 有 一 个 年 薪 逾 和 干 万 的 富翁 居住 于 该 小 
区 ， 而 其 余 都 是 年 薪 在 10 万 元 左右 的 普通 工薪 阶层 ， 如 果 用 均值 来 代表 这 个 小 区 居民 的 平均 收入 水 平 ， 那 么 这 个 小 区 居民 的 平均 年 收入 都 超过 了 百 万 元 ， 但 如 果 用 中 位 数 来 衡量 ， 就 可 以 体现 这 个 小 区 至 少 
有 一 半 居 民 都 是 普通 工薪 阶层 。 这 是 因为 富翁 与 其 余 届 民 的 收入 差距 太 大 ， 导 致 均值 不 能 代表 一 般 水 平 。 

在 实际 应 用 中 ， 很 难 给 出 一 个 定律 来 告诉 大 家 在 什么 时 候 适 合 使 用 均值 、 中 位 数 或 者 众 数 来 代表 一 般 水 平 ， 通 常 只 能 根据 数据 的 大 致 分 布 状况 并 结合 其 他 的 统计 量 来 一 起 解读 数据 。 如 果 一 组 数据 服从 
正 态 分 布 ， 那 么 数据 的 均值 、 中 位 数 和 众 数 都 相等 。 


运用 MEANS 过 程 可 以 计算 数值 型 变量 的 均值 、 中 位 数 和 众 数 等 描述 性 统计 量 。MEANS 过 程 的 基本 用 法 为 : 




















PROC MEANS <DATA= 数 据 集 >< 统 计量 关键 字 选 项 其 他 选项 >， 
VAR 变量 1 < 变量 2 ...>; 
RUN 








其 中 ， 统 计量 关键 字 选 项 可 以 用 来 指定 需要 输出 的 统计 量 ， 其 他 选项 可 以 用 来 指定 统计 量 的 输出 格式 等 ，VAR 语 句 指定 分 析 变 量 。 当 省 略 数据 集 时 ， 系 统 默认 分 析 最 近 生 成 的 数据 集 ; 当 省 略 统计 量 关 
键 字 选 项 时 ， 系 统 默认 按 顺 序 输出 频数 (N) 、 均 值 (MEAN) 、 标 准 差 (STD) 、 最 大 值 (MAX) 和 最 小 值 (MIN) 5 个 统计 量 ; 当 省 略 VAR 语 名 时， 系统 默认 分 析 数 据 集中 的 所 有 数值 型 变量 。 


例 9.1: sashelp.fish 是 包含 了 一 个 湖泊 里 各 种 鱼 类 身长 、 重 量 、 宽 度 等 特征 的 样本 ， 每 条 观测 代表 一 条 鱼 的 数据 ， 总 共有 7 个 变量 ， 变 量 Species 表 示 鱼 所 属 的 种 类 ，Weight 表 示 鱼 的 重量 ，Length1、 
Length2、Length3 分 别 表示 3 种 测量 方法 下 鱼 的 身长 ，Height 表 示 鱼 的 宽度 ，Width 表 示 鱼 的 厚度 。 现 在 要 计算 样本 中 各 个 数量 指标 的 均值 、 中 位 数 和 众 数 。 


示例 代码 如 下 : 


proc means data=sashelp.fish mean median mode maxdec=2; 
title "Descriptive Statistics of Tendency"; 
Var weight lengthl length2 length3 height width; 
run; 


























输出 内 容 如 图 9.5 所 示 。 


Descriptrve Statistics of Tendency 
MEANS PROCEDURE 


变量 均值 | 中 位 数 


Weight | 398.70 | 272.50 
Length1 | 26.25 | 25.20 
Length2 28.42 | 27.30 
Length3 31.23 | 29.40 
Height 8.97 1.79 
Width 上 442 4 .35 





图 9.5 例 9.1 输 出 内 容 


上 面 的 代码 指定 输出 了 均值 (MEAN) 、 中 位 数 (MEDIAN) 、 众 数 (MODE) 3 个 统计 量 ， 并 指定 了 每 个 统计 量 的 数值 只 能 带 两 位 小 数 。 


9.2.2 ”描述 数据 离散 程度 


数据 的 离散 程度 分 析 主 要 是 用 来 反映 数据 之 间 的 差异 程度 的 ， 不 同 的 数据 类 型 有 不 同 的 计算 方法 。 均 值 是 一 个 代表 性 数值 ， 反 映 数 据 取 值 的 一 般 水 平 ， 它 把 数据 各 取 值 之 间 的 差异 抽象 化 了 。 但 数据 各 
取 值 之 间 的 差异 是 客观 存在 的 ， 这 种 差异 也 是 数据 的 重要 特征 之 一 ， 反 映 了 数据 的 均衡 性 和 稳定 性 。 因 此 ， 要 全 面 反 映 一 个 数据 的 特征 ， 必 须 测定 数据 的 差异 程度 ， 常 用 的 变异 指标 有 标准 差 、 方 差 、 变 异 


系数 、 极 差 、 四 分 位 数 极 差 等 。 
1. 标 准 差 和 方差 


设 总 体 的 均值 为 h 已 知 ， 总 体 大 小 为 N， 则 总 体 标准 差 a 为 


当 总 体 均 值 H 和 总 体 大 小 N 都 未 知 时 ， 而 样本 均值 x 和 样本 容量 n 已 知 时 ， 则 样本 标准 差 5 为 
二 ee 本 ee ] 
一 (了 (AD 其 中 ,% = 一 Xi 
i=1 
标准 差 的 平方 ， 称 为 方差 。 
2. 变 异 系数 
变异 系数 是 一 种 不 受 单位 影响 的 表示 数据 离散 趋势 的 指标 ， 特 别 适 合 于 在 两 种 情况 下 (各 组 数据 的 单位 不 完全 相同 时 ， 或 者 各 组 数据 间 的 均值 相差 悬殊 时 ) 比较 各 组 间 变 异 程 度 的 大 小 。 用 CV 表示 其 形 
式 如 下 : 


CY = 三 x 100% 


标准 变异 系数 是 标准 差 与 均值 之 比 。 它 可 以 用 来 对 比 不 同 水 平 数据 的 均值 所 具有 的 代表 性 。 当 标准 变异 系数 小 时 ， 均 值 的 代表 性 大 ， 反 之 ， 均 值 的 代表 性 不 大 。 

以 上 这 些 变异 指标 在 数据 呈正 态 分 布 或 近似 正 态 分 布 的 时 候 ， 能 够 比较 好 地 代表 数据 的 变异 程度 。 若 数据 呈现 明显 的 偏 态 分 布 时 ， 则 极 差 和 四 分 位 数 极 差 具有 比较 好 的 代表 性 。 
3. 极 差 (RANGE) 

极 差 是 数据 的 最 大 值 与 最 小 值 之 差 ， 也 称 全 距 ， 计 算 方法 简单 、 易 懂 ,， 但 是 极 易 受 极端 数据 的 影响 ， 不 能 全 面 反映 所 有 差异 及 分 布 状况 ， 准 确 程度 差 ， 只 能 起 到 粗略 地 描述 数据 离散 趋势 的 作用 ， 故 应 
用 得 较 少 。 
4. 四 分 位 数 极 差 


四 分 位 数 极 差 是 数据 中 上 分 位 数 和 下 分 位 数 之 差 ， 在 实际 应 用 中 ， 分 位 数 更 多 地 是 用 来 描述 数据 的 分 布 情况 。 而 四 分 位 数 极 差 ， 则 用 来 度量 呈 偏 态 分 布 的 数据 的 离散 程度 。 下 面 在 介绍 描述 数据 分 布 形 
态 时 ， 会 具体 介绍 分 位 数 、 上 分 位 数 和 下 分 位 数 的 概念 及 计算 方法 。 


例 9.2: 接着 例 9.1 计 算 样 本 中 各 指标 的 标准 差 、 方 差 、 变 异 系数 、 四 分 位 数 极 差 ， 并 回答 不 同 种 类 鱼 的 重量 的 均值 是 否 存在 差别 。 


示例 代码 如 下 : 








proc means data=sashelp.fish mean Stdq var cv range grange; 
title "Descriptive Statistics of Dispersion"; 
Var weight lengthl length2 length3 height width; 














ruan; 
proc means data=sashelp.fish mean; 
title "Descriptive Statistics Using PROC MEANS"; 
var weight; 
class species; 
run; 

















第 一 段 程 序 中 ， 指 定 输 出 了 统计 量 MEAN、 标 准 差 (STD) 、 方 差 (VAR) 、 变 异 系数 (CV) 、 极 差 (RANGE) 和 四 分 位 数 极 差 (QRANGE) 。 输 出 如 图 9.6 所 示 。 


Descnptive Statistics of Dispersion 


MEANS PROCEDURE 


变量 均 但 标准 差 力 震 | ”变异 系数 极 差 | 四 分 位 数 极 老 


Weight | 398.6955696 | 359.0862037 128942.90 | 90.0652606 1650.00 | 530.0000000 
Length1 | 26.2471698 9.9964412 | 99.9288369 | 38.0857871 | 51.5000000 13.7000000 
Length2 | 28.4157233 | 10.7163281 | 114.8396879 | 37.7126705 | 55.0000000 15.0000000 
Length3 | 312270440 | 11.6102458 | 134.7978083 | 37.18009A8 | 59.2000000 16.6000000 
Height 8.9709937 4.2862076 | 18.3715758 | 47.7785155 | 17.2286000 6.4414000 
Width 44174855 1.6858039 2.8419347 | 38.1620688 | 7.0944000 2.2134000 


图 9.6 例 9.2 第 一 个 MEANS 过 程 输 出 内 容 


第 二 段 程序 中 ， 运 用 了 CLASS 语句 ， 系 统 将 按 CLAss 语 句 中 指定 的 分 类 变量 进行 分 类 ， 对 每 个 类 别 分 别 计 算 均值 统计 量 。 输 出 内 容 如 图 9.7 所 示 。 


Descriptive Statistics Using PROC MEANS 


MEANS PROCEDURE 





分 析 变 量 : Weight 
Species 观测 的 个 数 均值 
Bream 35 b26b.000000U 
Parkki 11 154.8181818 
Perch ob 3802.239285/ 
Pike 1 18.70580824 
Roach a0 152.0500000 
Smelt 14 11.1785714 
Whitefish 6 531.0000000 


图 9.7 例 9.2 第 二 个 MEANS 过 程 输出 内 容 
观察 报表 可 以 发 现 ， 不 同 种 类 的 鱼 在 重量 方面 存在 较 大 的 差别 。 


在 进行 描述 性 统计 分 析 时 ， 如 果 需 要 按 分 类 变量 进行 分 组 ， 除 了 可 以 使 用 CLASS 语句 以 外 ， 也 可 以 使 用 BY 语句 。 使 用 BY 语句 时 ， 系 统 在 计算 描述 性 统计 量 之 前 也 会 先 将 数据 集中 的 数据 按照 BY 变量 的 
取 值 进行 分 组 ， 然 后 再 分 别 计算 描述 性 统计 量 。 使 用 BY 语句 的 语法 如 下 : 





BY<DESCENDING> 变 量 1<<DESCENDING> 变 量 2><NOTSORTED>; 
































如 果 在 BY 语句 中 没有 使 用 选项 NOTSORTED， 在 使 用 BY 语句 前 ， 数 据 集 必须 按照 EY 变量 排序 或 者 建立 索引 。 在 使 用 选项 NOTSORTED 时 ， 数 据 集 不 需要 按 BY 变量 排序 ， 系 统 默 认 数 据 集中 每 个 BY 组 合 
按 观 测 号 是 连续 的 ， 如 果 数 据 集中 每 个 BY 组 合 取 值 相同 的 观测 不 按 观 测 号 连续 排序 ， 则 系统 认为 它们 分 别 是 不 同 的 BY 组 合 。 


BY 语句 和 CLASS 语句 的 作用 类 似 。 不 同 的 是 ， 在 使 用 BY 语句 时 ， 输 出 结果 会 按照 BY 变量 不 同 的 取 值 输出 到 不 同 的 报表 中 ， 而 使 用 CLASSs 语 句 时 ， 输 出 结果 是 在 同一 个 报表 中 的 ， 并 且 不 要 求 数据 是 按 


分 类 变量 排 过 序 的 。 


此 外 ， 上 默认 情 况 下 ，CLASS 语 句 中 的 任何 分 类 变量 为 缺失 值 时 ，MEANS 过 程 会 自动 将 分 类 变量 为 缺失 值 的 观测 从 统计 中 删除 ， 如 果 在 PROC MEANS 语 句 中 使 用 选项 MISSING， 则 系统 将 会 认为 缺失 值 
是 分 类 变量 的 一 个 类 别 ， 在 统计 时 单独 将 其 作为 一 类 列 出 。 


BY 语句 和 CLASS 语句 中 都 可 以 指定 多 个 BY 变量 或 分 类 变量 进行 交叉 分 析 。 在 本 章 后 面 的 部 分 和 接 下 来 的 其 他 章节 中 ， 讲 到 PROC 步 时 ，CLASS 语 句 和 BY 语句 的 用 法 都 和 MEANSs 过 程 中 类 似 ， 将 不 乾 


9.2.3 ”描述 数据 分 布 形态 


在 进行 统计 分 析 时 ， 通 常 需要 假设 样本 服从 某 种 分 布 。 所 以 在 进行 分 析 之 前 有 必要 对 数据 的 分 布 形态 进行 初步 的 了 解 ， 检 查 数据 是 否 大 致 服从 某 种 分 布 ， 然 后 再 运用 统计 理论 去 进行 假设 检验 。 描 述 数 
据 分 布 形态 有 两 种 基本 方法 ， 一 种 是 计算 统计 量 ， 一 种 是 作 图 。 
1. 百 分 位 数 


百 分 位 数 是 一 种 位 置 指标 。 在 一 组 数据 中 ， 百 分 位 数 体现 的 是 有 百 分 之 多 少 的 数据 大 于 该 分 位 数 。 例 如 ， 在 整个 数据 中 有 60% 的 数据 大 于 第 40 百 分 位 数 ， 同 样 有 40% 的 数据 小 于 等 于 第 40 百 分 位 数 。 由 
此 可 见 ， 前 面 讨论 的 中 位 数 其 实 就 是 第 50 个 百 分 位 数 。 第 25 个 百 分 位 数 和 第 75 个 百 分 位 数 分 别 叫做 下 分 位 数 和 上 分 位 数 ， 前 面 描 述 数 据 离散 程度 的 变异 指标 “四 分 位 数 极 差 ”等 于 上 分 位 数 和 下 分 位 数 之 
差 。 

在 计算 百 分 位 数 时 ， 都 要 先 将 观测 按照 从 小 到 大 的 顺序 排列 ， 排 列 后 的 数据 以 x1，x2，x3，…，xn 表 示 ，n 代 表 非 缺失 的 观测 个 数 。 欲 求 出 第 t 个 百 分 位 数 Pt， 首 先 必 须 找 出 百 分 位 数 在 排序 数据 中 的 相 
对 位 置 和 g，j 和 9g 的 定义 如 下 : 


j+e=nXt/100 
在 上 面 公式 中 ，j 是 “* w 的 整数 部 分 ，g 是 “的 小 数 部 分 。 
当 g=0 时 ，pt= (Xj+xj+i) /2; 当 g>0 时 ，pt=xj+i。 


以 某 班 12 个 同学 的 考试 成 绩 为 例 ， 将 12 个 同学 的 成 绩 按 从 小 到 大 排列 ， 计 算 第 25 个 百 分 位 数 时 ,j=3，g=0， 则 第 25 个 百 分 位 数 为 (63+55) /2=59， 表 示 有 25% 的 同学 考试 成 绩 低 于 59 分 ， 如 图 9.8 所 


932490 ) /2=31 


G5 
81 第 50 个 白 分 位 数 = ( 79+81 ) /2=80 


根 值 = 第 35 个 白 分 位 数 -第 25 个 白 分 位 数 =32 


79 
"0 
63 ”第 25 个 白 分 位 数 = ( 63+55 ) /2=59 
55 
47 
42 





图 9.8 ” 百 分 位 数 和 极 值 计算 示意 图 


在 SAS 中 ， 系 统 提供 了 5 种 计算 百 分 位 数 的 方法 ， 主 要 区 别 在 于 当 找 到 百 分 位 数 在 排序 数据 中 的 相对 位 置 后 ， 如 何 对 相 邻 的 两 个 数据 进行 加 权 处 理 。 这 里 介绍 的 方法 是 SAS 默 认 的 计算 方法 ， 如 果 读 者 有 
兴趣 可 以 参考 SAs 帮 助 文档 查看 其 他 4 种 计算 方法 。 


2. 盒 状 图 (Box Plot) 
盒 状 图 可 将 数据 的 百 分 位 数 、 均 值 和 极 值 等 统计 量 通 过 图 形 展示 出 来 ， 进 而 帮助 分 析 数 据 的 分 布 。 


在 盒 状 图 中 ， 距 离 盒子 的 底部 (第 25 个 百 分 位 数 ) 或 项 部 (第 75 个 百 分 位 数 ) 超过 1.51QR 的 数据 点 都 用 圆圈 表示 。 在 如 图 9.9 所 示 的 盒 状 图 中 ， 中 位 数 和 均值 基本 重合 ， 可 见 变量 基本 是 对 称 分 布 的 。 


此 高 盒子 的 换 部 为 1.5IQRb 





第 7 厂 小 白 作 忆 效 
第 50 个 白 分 位 数 ( 中 位 数 ) 
第 25 个 白 分 位 数 


人 辣子 的 高 度 ， 也 就 是 第 75 个 百 分 位 数 和 第 25 个 百 分 位 数 之 间 的 距离 
记 为 IQR 
距离 盒子 的 底部 为 1.5IQR 的 数据 点 





图 9.9 ”使 状 图 


3. 直 方 图 (Histogram) 


直方 图 是 一 种 几何 形 图 表 ， 它 可 以 将 收集 到 的 看 似 无 序 的 数据 进行 处 理 ， 反 映 数 据 的 基本 分 布 情况 。 它 根据 数据 的 分 布 情况 ， 画 成 以 组 距 为 底 边 、 以 频数 或 百分比 为 高 度 的 一 系列 连接 起 来 的 直方 型 矩 
形 图 ， 每 个 矩形 图 代表 了 一 组 数据 ， 和 矩形 的 高 度 代表 落 在 这 一 组 中 的 数据 的 频数 或 者 百分比 ， 如 图 9.10 所 示 。 
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在 上 面 的 直方 图 中 ， 大 部 分 数据 都 落 在 了 靠近 均值 的 中 间 的 分 组 中 ， 并 且 直 方 图 基本 呈 对 称 分 布 ， 和 我 们 前 面 介绍 的 正 态 分 布 的 特征 类 似 。 


图 9.10 ”直方 图 


由 于 正 态 分 布 具有 很 好 的 性 质 ， 因 此 在 对 数据 的 分 布 形态 进行 分 析 时 ， 通 常 都 会 和 正 态 分 布 进行 比较 。 下 面 来 看 几 个 分 布 ， 图 9.11 中 的 直方 图 表示 数据 的 分 布 ， 曲 线 表 示 以 该 数据 的 均值 和 标准 差 为 参 
数 作出 的 正 态 分 布 的 密度 曲线 。 可 以 看 到 ， 和 正 态 分 布 相 比较 ， 它 们 有 的 偏向 于 数据 小 的 一 出 ， 有 的 偏向 于 数据 大 的 一 出， 有 的 在 尖峰 处 异常 陡峭 ， 有 的 在 中 间 位 置 凹 进去 了 。 直 方 图 的 不 同形 态 代表 了 数 
据 分 布 的 不 同 特征 。 
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图 9.11 常见 数据 分 布 图 
4. 偏 度 系数 和 峰 度 系数 


统计 量 偏 度 系数 (Skewness) 和 峰 度 系数 (Kurtosis) 正 是 用 来 刻画 数据 的 分 布 形 态 的 。 偏 度 系数 和 峰 度 系 数 其 实 都 是 和 正 态 分 布 相 比 较 而 言 的 ， 偏 度 系 数 用 来 描述 分 布 是 对 称 分 布 还 是 偏向 某 一 侧 ， 
峰 度 系 数 用 来 描述 分 布 是 向 中 心 位 置 集中 还 是 向 两 侧 集中 。 


设 样本 均值 为 x 和 样本 容量 为 n， 样 本 标准 差 为 s， 偏 度 系数 的 计算 公式 如 下 : 


n 一 一 

nl 涡 . 一 多 
Skewness ts (二 一 | 
(n-l1)(n -2) 和 A $ 


如 果 计 算得 出 的 一 组 数据 的 偏 度 系数 接近 于 0， 则 数据 大 致 呈 对 称 分 布 ， 例 如 正 态 分 布 的 偏 度 系数 为 0。 当 偏 度 系数 小 于 0 时 ， 若 和 正 态 分 布 向 比较 ， 数 据 分 布 偏向 数据 小 的 一 人 出， 数据 的 均值 小 于 中 位 
数 ， 称 数据 呈 负 偏 态 分 布 或 偏 左 分 布 ， 当 偏 度 系数 大 于 0 时 ， 若 和 正 态 分 布 相 比 较 ， 数 据 分 布 偏向 数据 大 的 一 侧 ， 数 据 的 均值 大 于 中 位 数 ， 称 数据 呈正 偏 态 分 布 或 偏 右 分 布 。 


峰 度 系数 的 计算 公式 如 下 : 


n 


Kurtosis = 


n(n+l) Ce 人 
(n-1)(n-2)(n-3) 和 和 S (n—-2)(n—-3) 
当 峰 度 系 数 <0 时 ， 分 布 称 为 低 峰 分 布 (Platykurtic Distribution) 。 如 果 分 布 也 是 对 称 的 ， 则 相 较 于 正 态 分 布 ， 数 据 呈 现 出 : 较 少 的 数据 会 分 布 在 两 段 尾巴 处 ， 而 且 分 布 有 时 会 具有 较 平 坦 的 峰 部 ， 因 


此 这 样 的 分 布 也 通常 称 为 注 尾 分 布 (Light-Tailed Distribution) 。 


当 峰 度 系数 >0 时 ， 分 布 称 为 尖峰 分 布 (Leptokurtic Distribution) 。 如 果 分 布 也 是 对 称 的 ， 则 相 较 于 正 态 分 布 ， 数 据 是 现 出 : 较 多 的 数据 会 趋向 于 分 布 在 两 段 尾巴 处 ， 而 且 分 布 有 时 会 具有 较 陡峭 的 峰 
部 ， 因 此 这 样 的 分 布 也 通常 称 为 厚 尾 分 布 (Heavy-Tailed Distribution) 。 


正 态 分 布 的 峰 度 系 数 为 0。 统 计 研 究 表 明 ， 大 部 分 权益 类 金融 产品 的 回报 率 呈 现 出 尖峰 厚 尾 的 特征 。 
非 对 称 分 布 的 峰 度 系数 通常 也 是 非 零 数 ， 这 时 通过 峰 度 系 数 就 较 难 判断 数据 的 分 布 形态 了 。 
为 了 让 读者 对 于 偏 度 系 数 和 上 峰 度 系数 及 对 应 的 分 布 形态 有 更 直观 的 印象 ,下面 给 出 了 几 种 典型 分 布 的 直方 图 和 偏 度 系 数 及 峰 度 系数 特征 ， 供 读者 参考 。 


如 图 9.12 所 示 的 这 组 数据 通过 计算 得 出 偏 度 系数 为 0.003291， 接 近 于 0， 可 以 知道 数据 基本 呈 对 称 分 布 ; 峰 度 系数 为 -0.01685， 接 近 于 0， 没 有 尖峰 厚 尾 或 者 峰 部 平坦 的 特征 。 此 外 ， 直 方 图 和 正 态 分 布 
的 密度 曲线 非常 接近 ， 则 可 以 近似 地 认为 该 组 数据 服从 正 态 分 布 。 在 后 面 的 章节 中 ， 还 会 介绍 如 何 用 假设 检验 的 理论 检验 某 组 数据 是 否 服从 正 态 分 布 。 
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图 9.12” 正 态 分 布 直方 图 


如 图 9.13 所 示 的 这 组 数据 的 偏 度 系数 为 1.005005>0， 呈 现 出 正 偏 态 分 布 的 特征 ， 相 较 于 正 态 分 布 ， 较 多 的 数据 偏向 数据 大 的 一 侧 。 由 于 是 非 对 称 分 布 ， 峰 值 也 通常 不 会 接近 于 0。 
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图 9.13 正 偏 态 分 布 直 方 图 


如 图 9.14 所 示 的 这 组 数据 的 偏 度 系数 为 -0.97685， 呈 现 出 负 偏 态 分 布 的 特征 ， 相 较 于 正 态 分 布 ， 较 多 的 数据 分 布 在 数值 较 小 的 一 侧 。 
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曲线 
图 9.14 负 偏 态 分 布 直 方 图 


如 图 9.15 所 示 的 这 组 数据 的 偏 度 系数 为 -0.01365， 接 近 于 0， 分 布 基本 对 称 ， 峰 度 系数 为 2.318803， 因 此 较 多 的 数据 分 布 在 中 间 位 置 ， 呈 现 出 尖峰 厚 尾 的 特征 。 


尖峰 分 布 


| 偏 度 -0.01365 
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图 9.15 ”尖峰 分 布 直方 图 


如 图 9.16 所 示 的 这 组 数据 的 偏 度 系数 为 0.015395， 接 近 于 0， 分 布 基本 对 称 ， 峰 度 系 数 为 -1.80003<0， 因 此 相 较 于 正 态 分 布 ， 较 多 的 数据 分 布 在 两 侧 ， 峰 部 平坦 甚至 低 四 。 
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出 台 ”一 一 下 态 (Mu=2.4833 Sigma=1.9631 
图 9.16” 低 峰 分 布 直方 图 


5. 正 态 概 率 图 


正 态 概率 图 是 用 于 检查 一 组 数据 是 否 服从 正 态 分 布 的 图 形 ， 是 实际 数据 与 正 态 分 布 分 位 数 之 间 函 数 关 系 的 散 点 图 。 如 果 一 组 数据 服从 或 者 接近 正 态 分 布 ， 则 正 态 概率 图 将 是 一 条 直线 。 在 正 态 概率 图 
中 ， 横 轴 表 示 标 准 正 态 分 布 的 分 位 数 ， 纵 轴 表 示 实 际 数值 。 下 面 来 看 一 个 正 态 概率 图 ， 如 图 9.17 所 示 。 其 中 的 圆圈 是 以 标准 正 态 分 布 的 分 位 数 为 横 坐 标 ， 以 实际 数值 为 纵 坐 标 作出 的 散 点 ， 大 多 数 的 圆圈 基 
本 落 在 拟 合 的 直线 上 ， 也 说 明 该 数据 分 布 接近 正 态 分 布 。 
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正 访 目 分 位 数 
图 9.17 正 态 概 率 图 


以 下 给 出 几 种 典型 分 布 的 正 态 概 率 图 ， 如 图 9.18~9.21 所 示 。 读 者 有 兴趣 可 以 参考 SAS 帮 助 文档 深入 研究 。 





| .2 0 2 4 
正 态 分 位 数 


图 9.18 ” 正 偏 态 分 布 概率 图 
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图 9.19 ” 负 偏 态 分 布 概率 图 
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图 9.20 ”尖峰 分 布 概率 图 
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正 态 分 位 数 
图 9.21 低 峰 分 布 概率 图 
图 9.20 显 示 该 数据 分 布 呈现 出 尖峰 厚 尾 的 特征 。 
如 图 9.21 所 示 ， 相 较 于 正 态 分 布 ， 该 数据 分 布 的 峰 部 比较 平坦 。 
如 果 横 坐标 不 是 正 态 分 布 的 分 位 数 ， 而 且 是 其 他 任 一 已 知 分 布 的 分 位 数 ， 则 该 图 形 统称 为 概率 图 。 通 常 ， 概 率 图 可 以 用 于 检查 一 组 数据 是 否 服从 任 一 已 知 分 布 ， 如 二 项 分 布 或 者 泊 松 分 布 。 
6.UNIVARIATE 过 程 


UNIVARIATE 过 程 是 探索 性 数据 分 析 中 最 常用 的 过 程 之 一 ， 与 MEANS 过 程 一 样 可 以 计算 均值 、 中 位 数 、 众 数 、 百 分 位 数 、 偏 度 系数 、 峰 度 系数 等 描述 性 统计 量 。 但 除 这 些 以 外 它 还 可 以 绘制 直方 图 ， 能 
更 加 直观 地 给 出 变量 的 分 布 情况 。 运 用 UNVIRIATE 过 程 的 一 般 语法 如 下 : 





PROC UNIVARIATE DATA= 数 据 集 选项 ; 
VAR 分 析 变 量 ，; 

HISTOGRAM 分 析 变 量 </ 选 项 >; 

PROBPLOT 分 析 变 量 </ 选 项 >; 

NSET 统计 量 关 键 字 </ 选 项 >; 












































RUN; 


其 中 : 
. VAR 语 句 用 来 指定 分 析 变 量 ， 若 省 略 VAR 语 句 ， 系 统 将 分 析 数 据 集中 所 有 数值 型 变量 。 
. HISTOGRAM 语 名 可 以 针对 指定 的 变量 绘制 直方 图 ， 方 便 探 索 变 量 的 分 布 。HISTOGRAM 语 句 中 可 以 使 用 选项 NORMAL 作 出 正 态 分 布 的 密度 曲线 ， 便 于 比较 分 布 是 否 接近 正 态 分 布 。 
. PROBPLOT 语 名 可 以 指定 作出 概率 图 ， 比 较 数 据 是 否 服从 某 一 已 知 分 布 ， 包 括 正 态 分 布 、 二 项 分 布 、 泊 松 分 布 等 。 
. INSET 语 句 可 以 在 UNIVARIATE 过 程 中 作出 的 图 形 上 标注 统计 量 计算 值 。INSET 语 和 句 必须 紧 跟 在 作 图 语句 CDFPLOT、HISTOGRAM、PPPLOT、PROBPLOT 或 者 QQPLOT 后 面 。 
例 9.3: 查看 数据 集 sashelp.fish 中 种 类 为 Bream 的 鱼 类 的 宽度 分 布 是 否 接 近 正 态 分 布 。 


示例 代码 如 下 : 





proc univariate data=sashelp.fish plot ， 
where species="Bream"; 
title"Descriptive Statistics Using ProcUnivariate"; 
var height; 
histogram /normal (mu=est sigma=est) kernel; 
insetskewness kurtosis/ position=ne; 

runy 











在 上 述 程序 中 ， 选 项 PLOT 产 生 了 平行 条 状 图 、 盒 状 图 和 正 态 概 率 图 。HISTOGRAM 语 句 中 使 用 了 选项 NORMAL， 使 得 系统 作出 指定 均值 和 标准 差 的 正 态 分 布 的 密度 曲线 ， 选 项 MU= 指 定 了 正 态 分 布 的 
均值 ，SIGMA= 指 定 了 正 态 分 布 的 标准 差 ; 选项 KERNAL 使 得 系统 基于 数据 的 分 布 作 出 了 核 分 布 的 密度 曲线 ， 我 们 可 以 简单 地 将 该 曲线 看 成 直方 图 的 光滑 版 ， 便 于 和 正 态 分 布 的 密度 曲线 进行 比较 。 接 下 来 
来 分 析 UNIVARIATE 过 程 的 输出 报表 ， 如 图 9.22 和 图 9.23 所 示 。 
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图 9.22 例 9.3 输 出 描述 性 统计 量 等 报表 
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图 9.23 ” 例 9.3 输 出 分 位 数 和 极 值 观测 报表 
通过 分 析 报 表 ， 我 们 发 现 : 
. 该 数据 的 均值 为 15.18321， 和 中 位 数 14.95440 很 接近 ， 这 说 明 Bteam 种 类 的 鱼 的 宽度 分 布 基本 上 是 对 称 的 。 
. 偏 度 系 数 为 0.2417， 说 明 该 分 布 有 轻微 右 偏 的 趋势 。 
* 峰 度 系数 为 -0.5914， 说 明 相 较 于 正 态 分 布 ， 分 布 的 峰 部 较为 平坦 ， 没 有 厚 尾 特征 。 
宽度 最 小 的 观测 是 第 1 条 观测 ， 宽 度 为 11.52， 宽 度 最 大 的 观测 是 第 30 条 观测 ， 宽 度 为 18.9570。 
这 里 的 百 分 位 数 的 计算 方法 是 SAS 系 统 默 认 的 算法 ， 用 户 也 可 以 在 PROC UNIVARIATE 语 句 中 运用 选项 PCTLDEF= 来 指定 其 他 4 种 方法 中 的 一 种 。 
从 正 态 概 率 图 可 以 看 到 ， 散 点 基本 集中 在 拟 合 的 直线 周围 ， 说 明 该 分 布 比较 接近 正 态 分 布 ， 如 图 9.24 所 示 。 


从 直方 图 中 可 以 看 出 ， 大 约 45% 的 数据 都 集中 在 中 间 两 个 矩形 中 ， 并 且 在 图 形 的 右上 和 角 插 入 了 偏 度 系数 和 峰 度 系数 。 密 度 曲 线 和 正 态 分 布 的 曲线 也 比较 接近 ， 显 示 了 该 数据 近似 服从 正 态 分 布 ， 如 图 
9.25 所 示 。 


上 面 只 是 从 图 形 和 描述 性 统计 量 上 得 知 了 分 布 的 大 致 特征 ，UNIVARIATE 过 程 还 对 分 布 的 正 态 性 作出 了 检验 ， 如 图 9.26 所 示 。 这 里 的 数据 表明 ， 这 个 湖 里 的 Bream 这 种 鱼 的 宽度 特征 服从 均值 为 15.18， 
标准 差 为 1.96 的 正 态 分 布 。 在 第 10 章 中 将 对 假设 检验 的 基本 理论 进行 讲解 。 


以 下 对 象 的 分 布 和 概率 图 : Height 

















18.6 
17.4 
162 - 


15 











13.8 


12.6 


11.4 








-3 a -1 2 


图 9.24 例 9.3 中 选项 PLOT 所 作 图 形 


以 下 对 象 的 分 布 : Height 
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图 9.25 ” 例 9.3 中 HISTOGRAM 语 和 句 所 作 直 方 图 
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9.3 ”MEANS 过 程 的 补充 


前 面 介绍 了 运用 MEANS 过 程 计算 描述 性 统计 量 的 基本 用 法 ， 这 里 补充 介绍 一 下 MEANS 过 程 的 其 他 功能 和 用 法 。 


9.3.1 统计 量 列表 


下 面 列 出 了 MEANS 过 程 中 各 种 描述 性 统计 量 和 位 置 统计 量 的 关键 字 及 计算 方法 。MEANS 过 程 在 处 理 数据 时 ， 数 据 可 以 是 详细 数据 ， 即 每 条 数据 代表 一 个 个 体 或 者 观测 ， 也 可 是 分 组 数据 ， 即 每 条 数据 


代表 一 组 个 体 或 者 观测 ， 这 种 分 组 数据 在 医学 统计 上 非常 常见 。 


描述 性 统计 量 如 表 9.2 所 示 。 


统计 量 关 键 字 


CSS 


CV 


SKEWNESSISKEW 
KURTOSISIKURT 
MAA 和 人 


11.5<00 
12.3778 
12.4800 
13.9129 
14.9544 
16.3618 
18.0840 


18.7542 


18.9570 


表 9.2 常见 描述 性 统计 量 





10.61z6 
11.3516 


12.6653 
13.8580 
15.1832 
16.5084 
17.7011 
1 8.4149 
19.7538 


图 9.26” 例 9.3 中 正 态 分 布 检验 报表 


校正 平方 和 
z 米 
7 A 








计算 方法 
>》 WwW. (xX, — %) 
i=] 


cy = 本 100% 


详 见 SAS 帮助 文档 
详 见 SAS 帮助 文档 


计算 方法 
SU 


MEAN 


MIN 
MODE 
N 
NMISS 
RANGE range = max — min 


STDDEVISTD 





需 -三 
n=1 
td = 
STDERR 标准 误差 stderr = 
“LIMT sitiit 二 Wd, 
ml 
SLUMTWOT SE mivet = 2 ， 
ul 
USS 未 校 平方 和 uss 二 WX 
[ 三 
VAR Var = ss 
在 表 9.1 中 wi 代表 权重 ， 当 没有 使 用 WEIGHT 语 句 指定 权重 时 时 ， 系 统 默 认 W;=1。 
位 置 统 计量 如 表 9.3 所 示 。 
表 9.3 常见 位 置 统计 量 
统计 量 天 键 字 解 ” 释 
MEDIAN 中 位 数 
Pl 第 1 个 百 分 位 数 
Pp2 第 2 个 下 分 位 数 
P10, P20, P30, :…, P80, P90 第 10、20、30、…、80、90 个 百 分 位 数 
P95 第 95 个 百 分 位 数 
人 第 99 个 百 分 位 数 
Q1IP25 四 分 位 数 下 限 或 者 第 25 个 白 分 位 数 
Q3|P75 四 分 位 效 上 限 或 者 第 75 个 和 白 分 位 数 
QRANGE 四 分 位 数 极 差 , QRANGE=Q3-Q1 


9.3.2 选项 WEIGHT= 和 WEIGHT 语 名 


知 计算 描述 性 统计 量 (均值 、 标 准 差 、 标 准 误差 、 总 和 、 权 重 和 等 ) 时 ， 需 要 使 用 权重 变量 ， 可 以 通过 两 种 方法 指定 权重 变量 ， 一 种 是 在 VAR 语 句 中 使 用 选项 WEIGHT= ， 第 二 种 是 直接 在 PROC 步 中 使 
用 WEIGHT 语 句 来 指定 权重 变量 。 如 果 既 使 用 了 WEIGHT 语 句 ， 又 在 VAR 语 句 中 使 用 了 选项 WEIGTH=， 那 么 系统 优先 使 用 选项 WEIGHT= 中 指定 的 变量 作为 VAR 语 句 中 变量 的 权重 变量 。 极 差 、 极 值 和 缺失 


值 个 数 等 统计 量 不 受权 重 变量 影响 。 
需要 注意 的 是 ， 权 重 变量 必须 是 数值 型 变量 。 
当权 重 变 量 的 取 值 等 于 0 时 ， 系 统 会 将 该 条 观测 计 入 非 缺 失 值 个 数 N 中 。 
当权 重 变量 的 取 值 小 于 0 时 ， 系 统 将 自动 将 取 值 转换 成 0， 并 将 该 条 观测 计 入 非 缺 失 值 个 数 N 中 。 
. 当权 重 变量 的 取 值 为 缺失 时 ， 系 统 在 处 理 过程 中 将 自动 忽略 该 条 观测 。 


FREQ 语 句 也 可 以 用 来 指定 观测 的 频数 ， 如 果 FREQ 语 句 指定 的 变量 的 取 值 为 非 整数 ， 系 统 只 取 其 整数 部 分 ， 当 该 变量 的 取 值 小 于 1 或 者 缺失 时 ， 系 统 在 进行 分 析 时 会 自动 忽略 该 条 观测 。 


GG 注意” 当 MEANS 过 程 或 者 UNIVARIATE 过 程 中 使 用 WEIGTH 语 句 时 ， 系 统 将 不 会 计算 偏 度 系 数 和 蜂 度 系数 ， 输 出 的 偏 度 系数 和 活 度 系数 都 为 缺失 值 。 


9.3.3 ”输出 SAS 数 据 集 


默认 情况 下 ，MEANS 过 程 中 计算 的 各 种 描述 性 统计 量 都 是 输出 到 结果 窗口 的 。 但 往往 在 实际 应 用 中 ， 计 算 描述 性 统计 量 只 是 进行 数据 分 析 的 第 一 步 ， 在 得 到 各 种 统计 量 后 ， 需 要 对 其 做 进一步 的 加 工分 
析 。 在 这 种 情况 下 ， 将 输出 结果 保存 成 SAS 数 据 集 是 非常 必要 的 。OUTPUT 语 句 使 得 用 户 可 以 自行 选择 需要 存储 成 SAS 数 据 集 的 统计 量 。 使 用 方法 如 下 : 








OUTPUT OUT= 输 出 数据 集 < 统 计量 关键 字 1< 变 量 列表 1><= 列 名 1> 
< 统计 量 关键 字 2< 变 量 列表 2><= 列 名 2>...>>/<AUTONAME>; 
































其 中 : 


. 选项 OUT= 指 定 了 输出 数据 集 的 名 称 ， 统 计量 关键 字 指 定 需要 输出 到 数据 集中 的 统计 量 关键 字 ， 变 量 列表 指定 需要 计算 描述 性 统计 量 并 输出 到 数据 集中 的 变量 的 名 称 ， 等 号 右边 的 列 名 表示 存储 到 数 
据 集中 时 统计 量 关键 字 的 变量 名 称 。OUTPUT 语 自 中 指定 统计 量 关键 字 只 影响 输出 到 数据 集中 的 统计 量 ， 而 PROC MEANS 语 句 中 的 统计 量 关键 字 序列 则 影响 输出 到 结果 窗口 的 统计 量 ， 两 者 不 相互 影响 。 


` 使 用 选项 AUTONAME 时 ， 系 统 自动 为 存储 到 数据 集中 的 统计 量 指定 变量 名 称 ， 变 量 名 称 自动 置 为 “分 析 变量 _ 统 计量 关键 字 ”。 


例 9.4: 数据 集 sashelp.shoes 中 包含 了 某 鞋 类 公司 全 球 范围 内 各 种 产品 的 销售 和 库存 情况 ， 共 有 7 个 变量 ， 变 量 Region 代 表 地 区 ，Product 代 表 产 品 ，Subsidiary 代 表 分 公司 ，Stores 代 表 门 店 个 
数 ，Sales 代 表 销 售 额 ，Inventory 代 表 库 存 所 占 资金 ，Returns 代 表 退 货 。 计 算 各 地 区 、 各 种 产品 的 平均 销售 额 、 平 均 库存 金额 、 总 销售 金额 、 总 库存 金额 及 标准 差 等 统计 量 ， 并 保存 到 SAS 数 据 集中 。 


示例 代码 如 下 : 


proc means data=sashelp.shoes mean median Sum stgd; 
title"Output Decsriptive Statistics to SAS Dataset"; 
var sales inventory; 
class region product; 
output out=work.outstat mean(sales)=sales mean sum(sales)=sales sum mean (inventory)= 
invnt mean sum(inventory)=invnt sum; 。 





























run; 
proc print data=work.outstat; 
LN 








这 里 使 用 CLASS 语 句 指 定 了 两 个 分 类 变量 ， 运 行 上 面 的 程序 后 ， 结 果 窗 口 输出 两 个 输出 列表 ， 第 一 个 是 MEANS 过 程 的 输出 结果 ， 第 二 个 是 PRINT 过 程 的 输出 结果 ， 数 据 来 自 MEANS 过 程 中 输出 的 SAS 
数据 集 WORK.OUTSTAT。 


如 图 9.27 和 图 9.28 所 示 是 部 分 输出 结果 。 


Output Decsriptive Statistics to SAS Dataset 


MEANS PROCLEDURE 
Region Product 观测 的 个 数 ”变量 标签 均值 中 位 数 总 和 标准 莽 
Afriea Booat 8 | Sales Total Sales 1 起 9979.38 15101.50 119835.00 B496.689 
Irventory | Total Irventory 6403.63 Gg376.50 611229.00 与 可 与 时 可 ,7 量 
Men's Casual 5 Sales Tatal Sales 112558.80 63206.00 S62794.00 140499.62 
Irventory | Total Immventory 289672.60 118036.00 1#448363.00 35259.72 
Men's Dress 了 Sales Toatal Sales 45500.00 29582.00 318500.00 由 二 日 .后 7 
Irventory | Total Irventory 120818.43 67247.00 845729.00 140773.82 
Sandal 8 Sales Total Sales 23801.13 16939.50 190403.00 17087.37 
Irventory | Total Irventory 81966.63 T2414.00 6b55733.00 55899.85 
slipper 8 Sales Total Sales 4213d4.50 41452.00 337076.00 19748.44 
Irventory | Total Irventory 152949.13 136520.00 1223585.00 9219.19 
Sport shoe 8 | Sales Total Sales 2768.75 有 2390.00 221350.00 1510.35 
Irventory | Total Imventory 1225.38 18724.50 145803.00 9687.43 
Women's Casual 站 | Sales Total Sales 104379.00 35561.50 #17516.00 150195.75 
Irventory | Total Irventory 272895.50 S4584.00 1091582.00 寺 汪 后 33.09 
Women's Dress 8 | Sales Total Sales 46789.50 37805.00 374308.00 35594.05 
Irventory | Total Inventory 134881.13 103638.00 1073049.00 100569.77 
| Boot 2 | Sales Total Sales 31354.00 31354.00 G2708.00 站 1518.48 
Irventory | Total Irventory 85082.50 85082 50 170165 00 106782 42 
Men's Casuadl 1 | Sales Total Sales 11754.00 11754.00 11754.00 
Irventory | Total Irventory 2176.00 2176.00 2176.00 
Men's Oress 2 | Sales Total Sales S9683.00 S9683.00 119366.00 S0115.20 


Inventory Total Imrventory | 136317.00 136317.00 272634.00 163321.87 


图 9.27 例 9.4 中 MEANS 过 程 输出 内 容 
MEANS 过 程 的 输出 报表 和 输出 到 数据 集 work.outstat 的 数据 有 两 点 不 同 : 


1) 在 MEANS 过 程 的 输出 结果 (第 1 张 报表 ) 中 ， 含 有 均值 、 中 位 数 、 总 和 和 标准 差 4 个 统计 量 ; 而 SAS 数 据 集中 ， 只 包含 了 并 未 包含 统计 量 中 位 数 ， 并 且 Sales 的 均值 统计 量 被 命名 为 
Sales_ mean，Sales 的 总 和 被 命名 为 Sales sum，lnventory 的 均值 被 命名 为 Invnt_ mean，lnventory 的 总 和 被 命名 为 Invnt_sum。 如 果 不 需要 将 统计 结果 输出 到 结果 窗口 ， 可 以 在 PROC MEANS 语 句 中 使 
用 选项 NOPRINT。 


2) MEANS 过 程 的 输出 结果 和 输出 的 SAS 数 据 集 观 测 的 条 数 也 不 一 样 。 与 MEANS 过 程 的 输出 结果 相 比 较 ，SAS 数 据 集中 包含 了 所 有 分 类 变量 组 合 的 统计 结果 。 系 统 用 _TYPE_ 变 量 表示 分 类 变量 组 合 的 
种 类 ，_TYPE_=0 表 示 不 使 用 分 类 变量 的 情形 ， 也 就 是 所 有 观测 的 统计 结果 ，_TYPE_=1 或 TYPE_=2 表 示 仅 使 用 一 个 分 类 变量 的 情形 ，_TYPE_=3 表 示 同 时 使 用 两 个 分 类 变量 得 出 的 分 类 结果 。 


Output Decsniptive Statistics to SAS Dataset 





1 0 395 $85.700 
2 Boot 1 52| $45.203 
3 Men's Casual 1 45| $176305 
4 Men's Dress 1 50 | $110,145 
5 sandal 1 49| $17.723 
6 slipper 1 52| $118.766 
7 sport Shoe 1 51| $12.774 
8 Women's Casual 1 45 | $91.952 
9 Women's Dress 1 51 $122.088 
10 | Africa 2 56| $41.832 
11 Asia 2 14 $32.874 
12 Canada 2 37 | $115.019 
13 | Central America/Caribbean 2 32 | $114.305 
14 | Eastern Europe 2 31 $77.256 
15 Middle East 2 24 | $234.657 
16 ，Pacific 2 45 | $51.040 
17 | South America 2 54 $45,089 
18 | United States 2 40 | $137,600 
19 | Westem Europe 2 62 | $78.597 
20 | Africa Boot 3 8 $14979 
21 | Mrica Men's Casual 3 5 | $112,559 
22 | Africa Men's Dress 3 7 $45,500 
五 | Africa sanda 3 8 $23.801 


图 9.28” 例 9.4 中 PRINT 过 程 输 出 内 容 


9.3.4 WAYS 语 句 和 TYPES 语 名 


在 CLASS 语句 指定 多 个 分 类 变量 时 ，MEANS 过 程 提供 了 WAYSs 语 句 、TYPESs 语 句 和 选项 NWAY ， 便 于 用 户 选择 需要 计算 和 保存 的 分 类 变量 组 合 的 统计 结果 。 


WAYS 语 句 的 基本 语法 为 : 











WAYS 数值 1 数值 2 数值 3 …: 











数值 的 取 值 为 0 到 分 类 变量 个 数 之 间 的 任 一 整数 (包括 0 和 分 类 变量 个 数 ) ， 当 数值 =0 时 ， 表 示 输 出 不 含 分 类 变量 情形 下 的 描述 性 统计 量 ; 当 数 值 =1 时 ， 表 示 输 出 所 有 只 使 用 一 个 分 类 变量 情形 下 的 统 


$33.851.566 
$2,350.543 
$7.,933.707 
$5,507.243 
$868.436 
$56,175,834 
$651.467 
$4,137.861 
$56,226,475 
$2,342.588 
$460.231 
$4.255.712 
$3.657.753 
$2,394,.940 
$5.631.779 
$2,296,.794 
$2,434.783 
$5,503.986 
$4,873.000 
$119.835 
$562.794 
$318.500 
$190.409 


计 结 果 ; 当 数 值 =2 时 ， 表 示 输 出 所 有 包含 两 个 分 类 变量 情形 下 的 描述 性 统计 量 。WAYS 语 句 中 可 以 指定 多 个 数值 ， 以 下 是 WAYS 语 句 的 简单 的 例子 。 





class VarA varB varC; 
ways 1 2; 


S250.899 
$187.013 
$379.672 
S290.147 

$65.965 
S427.527 

$65.151 
S215.481 
$378.525 
S126.805 

$84.010 
S354.343 
S317.934 
$256.531 
$5392.031 
$177.140 
S110.854 
$414.560 
3239.391 

$76.404 
$289.673 
S120.818 

$81.967 


$99.105.051 
$9.724.671 
$17.085.253 
名 1 续 .507.340 
$3.232.215 
$22,.231.380 
$3.322.702 
$9.696.651 
唱 19,.304.779 
37,101.073 
$1,176,139 
$13.110.709 
$10.173.878 
$7 ,952.471 
$14.208.749 
$7.971.291 
35.986.094 
$16.582.397 
$14,.842.250 
$611.229 
S1448.363 
$845.729 
$655.733 





系统 将 会 输出 分 别 按 varA、varB、varC 分 类 的 统计 结果 ， 及 varAx*varB、varAx*varC 及 varB*varC 交 叉 组 合 分 类 后 的 统计 结果 。 


TYPES 语 句 的 基本 语法 如 下 : 


TYPES 分 类 组 合 要 求 ， 








例如 : 





Class VarA VarB varC; 
types varA VarB VarC varA*varB varA*varC varB*varC; 











上 面 的 TYPES 语 句 和 “ways 12; ”的 作用 是 一 样 的 。 


加 注意 ”如果 仅 需要 输出 不 使 用 分 类 变量 的 统计 结果 ， 可 以 使 用 “WAYS 0; ”或 者 “TYPESO; ”。 使 用 TYPES 语 句 来 选择 需要 输出 到 数据 集中 的 分 类 组 合 的 种 类 ， 比 在 数据 集 后 面 使 用 选项 WHERE 


更 加 节约 时 间 和 内 存 。 


另外 ， 在 PROC MEANS 语 句 中 使 用 选项 NWAY， 可 以 使 得 输出 数据 集中 只 包含 使 用 所 有 分 类 变量 的 情形 。 在 例 9.4 中 使 用 选项 NWAY 的 示例 如 下 : 





proc means data=sashelp.shoesnoprintnway; 
title"Output Decsriptive Statistics to SAS Dataset"; 
var sales inventory; 
class region product; 
output out=work.outstat mean (sales)=sales meansum(sales)=sales sum mean (inventory)= 
invnt mean sum(inventory)=invnt sum; 加 


























run; 
proc print data=work.outstat; 
run; 




















输出 内 容 如 图 9.29 所 示 。 


Output Decsnptive Statistics to SAS Dataset 


Product 
Boot 

Men's Casual 
Men's Dress 


Sandal 


slipper 
Sport Shoe 


Women's Casual 


8 
3 
了 
8 
8 
8 
| 
8 


i ly 


Women's Dress 


| BE ey ee Ce 





图 9.29 例 9.4 使 用 选项 NWAY 的 输出 内 容 


这 里 总 结 一 下 MEANS 过 程 的 各 种 语句 。 




















PROC MEANS DATA= 数 据 集 < 统 计量 关键 字 选 项 其 他 选项 >; 
VAR 分 析 变 量 1 < 分 析 变 量 2 .> ， 


CLASS 分 类 变量 1 分 类 变量 2 .…; 



































FREQ 变量 n; 

WEIGHT 变量 m; 

OUTPUT OUT= 输 出 数据 集 < 统 计量 关键 字 1< 变 量 列表 1><= 列 名 1> .></AUTONAME>; 
TYPES 分 类 组 合 要 求 ; 

WAYS < 数值 1>< 数 值 2>< 数 值 3 .>， 
RUN; 






























































$14.979 
$112.559 
$45.500 
$23.801 
$42.135 
$2.769 
3104.379 
$46.789 


$119.835 
$562,794 
$318.500 
$190.403 
$337,076 

$22.150 
3417.516 
3374,.308 


_TYPE _ | _FREQ_ sales man sales sum mwnt_mean 


$76.404 
S289.673 
S120.818 
$81.967 
S132.948 
18.225 
$272,896 
$134,.881 


Imrvrt_sSurn 
$611.229 
$1 ,448.363 
$845,729 
$655,.733 
$1,223,585 
$145.803 
$1.091,.582 
$1.079,049 





在 MEANS 过 程 中 ， 除 了 PROC MEANSi 语 句 和 和 RUN 语句 ， 其 他 各 个 语句 的 顺序 可 以 互 换 ， 这 个 性 质 在 SAS 的 其 他 PROC 步 中 也 适用 。 


SUMMARY 过 程 和 MEANS 过 程 的 语法 和 作用 非常 相似 ， 和 MEANS 过 程 不 同 的 地 方 在 于 : 


` SUMMARY 过 程 在 默认 情况 下 不 会 将 统计 结果 输出 到 结果 窗口 ， 如 果 需 要 输出 到 结果 窗口 ， 则 要 在 PROC SUMMARY 语 名 中 使 用 选项 PRINT。 


“ 在 MEANS 过 程 中 ， 如 果 不 使 用 VAR 语 名 指定 分 析 变 量 ， 系 统 会 默认 输出 所 有 数值 型 变量 的 描述 性 统计 量 。 但 是 在 SUMMARY 过 程 中 ， 如 果 在 PROC SUMMARY 语 句 中 指定 了 统计 量 关键 字 ， 却 没有 使 


用 VAR 语 多， 系统 将 给 出 ERROR 信 息 ， 并 停止 运行 。 


9.4 本章 小 结 


作为 第 二 篇 统计 分 析 部 分 的 开篇 ， 本 章 第 1 节 介绍 了 统计 学 中 一 些 基 本 概念 ， 如 总 体 、 个 体 和 样本 的 定义 ， 简 单 随机 抽样 的 基本 原理 ， 参 数 和 统计 量 的 区 别 和 联系 ， 自 由 度 的 定义 ， 随 机 变量 和 概率 分 布 
的 定义 ， 以 及 在 统计 学 中 具有 重大 作用 的 3 种 概率 分 布 (二 项 分 布 、 泊 松 分 布 和 正 态 分 布 ) 。 第 2 节 中 ， 介 绍 了 描述 性 统计 分 析 在 统计 学 中 的 重要 作用 ， 分 别 讨论 了 描述 数据 集中 趋势 、 数 据 离散 程度 及 数据 


分 布 形态 的 描述 性 统计 量 的 定义 及 计算 方法 ， 并 通过 实例 讲解 如 何 运用 SAS 中 的 MEANS 过 程 和 UNIVARIATE 过 程 计算 这 些 描述 性 统计 量 。 


第 10 草 ”参数 估计 与 假设 检验 
从 本 章 起 ， 开 始 介绍 统计 推断 ， 这 是 统计 学 的 一 个 重要 组 成 部 分 。 


合 的 应 用 。 


10.1 ”参数 估计 


参数 估计 和 假设 检验 是 统计 推断 的 基本 内 容 。 在 SAS 中 ， 几 乎 所 有 统计 建 模 的 PROC 步 都 会 涉及 参数 估计 及 与 之 相应 的 假设 检验 。 假 设 总 


知 ， 那 么 就 需要 对 这 些 未 知 的 参数 做 出 合理 的 估计 ， 并 且 对 所 做 出 的 估计 进行 评价 ， 这 样 的 过 程 就 叫做 参数 估计 。 


例如 ， 已 知 总 体 C 服 从 正 态 分 布 ， 但 其 均值 与 方差 未 知 。C1，02， 
估计 的 形式 有 两 种 : 点 估计 和 区 间 估 计 。 


…， 《n 是 总 体 6 的 容量 为 n 的 样本 ， 参 数 估计 就 是 利用 样本 C1，&2， 


所 谓 统计 推断 就 是 利用 样本 所 提供 的 信息 对 总 体 的 某 些 统计 特征 进行 估计 或 者 判断 ， 从 而 认 
数 估计 ， 另 一 类 是 假设 检验 。 本 章 中 将 介绍 参数 估计 和 假设 检验 涉及 的 基本 概念 和 基本 原理 ， 并 结合 SAS 过 程 步 介绍 常见 的 单 样本 均值 检验 、 两 样本 及 配对 样本 的 均值 检验 、 非 参数 检验 的 方法 以 及 分 布 拟 


总 


yy YN 


体 。 统 计 推断 分 为 两 大 类 , 一 


体 < 的 分 布 函 数 的 类 型 已 知 ， 但 是 其 中 的 一 个 或 者 多 个 参数 未 


…， 《Cn 所 提供 的 信息 ， 对 总 体 < 的 均值 与 方差 进行 估计 的 过 程 。 参 数 


ies 
类 是 参 


10.1.1 点 估计 


点 估计 又 称 定 值 估计 ， 和 简单 地 说 ,就 是 用 一 个 单一 的 取 值 去 近似 地 作为 未 知 参 数 的 估计 值 。 一 般 会 根据 样本 51，C2，.…，Cn 构 建 适当 的 统计 量 9 (C1，C2，.…，CLn) 作为 未 知 参数 6 的 一 个 估计 量 ， 当 样 
本 的 取 值 为 X1，x2，…，xn 时 ， 则 以 4 (x1，x2，.…，Xn) 作为 总 体 分 布 中 未 知 参数 6 的 一 个 估计 值 。 


样本 的 均值 x 可 以 用 来 估计 总 体 的 均值 H， 样 本 的 标准 差 s 可 以 用 来 估计 总 体 的 标准 差 G。 例 如 ， 在 第 9 章 中 ， 已 经 分 析 了 某 个 湖 里 种 类 为 Bream 的 鱼 类 的 宽度 样本 数据 ， 通 过 样本 数据 的 计算 得 
知 ，Bream 的 宽度 的 样本 均值 为 15.18， 样 本 标准 差 为 1.96。 那 么 ， 这 里 的 样本 均值 15.18 就 可 以 作为 整个 湖 中 所 有 Bream 鱼 的 宽度 均值 的 一 个 估计 。 


在 统计 中 ， 进 行 点 估计 的 方法 有 多 种 ， 例 如 和 矩 估 计 法 、 最 小 二 乘法 、 极 大 似 然 法 ， 其 中 极 大 似 然 估计 又 有 很 多 改进 的 形式 ， 比 如 限制 极 大 似 然 等 。SASs/STAT 的 PROC 步 中 允许 用 户 在 进行 参数 估计 的 时 
候 指 定 不 同 的 参数 估计 方法 。 

点 估计 的 矩 估 计 法 是 由 皮尔 逊 (Pearson) 提出 的 ， 它 直观 、 简 便 ， 是 用 样本 和 矩 作为 总 体 相关 和 矩 的 估计 ， 特 别 是 在 不 知道 总 体 分 布 的 情况 下 ， 也 可 以 对 总 体 数学 期 望 和 方差 进行 估计 。 只 要 知道 总 体 随 
机 变量 的 一 些 矩 存在 ， 就 可 以 做 相应 的 答 估 计 。 但 是 ， 当 总 体 的 参数 不 能 表示 成 矩 的 函数 时 ， 就 不 能 用 和 矩 估 计 ; 此 外 ， 答 估计 常常 没有 利用 总 体 分 布 函 数 所 提供 的 信息 ， 因 此 也 很 难保 证 它 有 优良 的 性 质 。 


极 大 似 然 估计 的 基本 思想 是 ， 以 使 样本 的 出 现 获得 最 大 概率 的 参数 值 作为 未 知 参数 的 估计 值 。 例 如 ， 如 果 某 事件 发 生 的 概率 为 p， 且 PpP 只 能 取 0.01 或 0.9， 现 在 ， 在 连续 两 次 实验 中 该 事件 都 发 生 了 ， 那 么 
显然 认为 p=0.9 是 合理 的 。 又 如 ， 两 人 向 同一 目标 各 发 射 一 枪 ， 一 人 击 中 目标 ， 另 一 人 没 击 中 目标 ， 认 为 击 中 目标 者 比 没有 击 中 目标 者 的 射击 技术 好 也 是 合理 的 。 极 大 似 然 法 可 以 简单 地 理解 为 在 所 有 可 能 
的 选择 中 选择 “看 起 来 最 像 的 ”的 值 作为 参数 的 估计 ， 是 参数 估计 用 得 最 多 的 方法 ， 最 早 是 由 高 斯 在 1821 年 提出 的 ， 但 现在 一 般 将 其 归功 于 R.A.Fisher， 因 为 Fisher 在 1922 年 再次 提出 了 这 种 想法 ， 并 证 明 
了 它 的 一 些 性 质 ， 从 而 使 得 极 大 似 然 法 得 到 了 广泛 应 用 。 


既然 对 于 一 个 未 知 参数 ， 可 以 提出 不 同 的 估计 量 ， 那 么 自然 也 就 会 涉及 比较 估计 量 好 坏 的 问题 。 这 样 一 来 ， 就 需要 给 出 评定 估计 量 好 坏 的 标准 了 。 无 偏 性 、 有 效 性 和 相合 性 是 衡量 一 个 参数 估计 好 坏 的 3 
个 基本 标准 。 


从 理论 上 讲 ， 当 一 个 估计 量 的 数学 期 望 等 于 被 估计 参数 的 真实 值 时 ， 我 们 说 ， 这 个 估计 量 是 无 偏 的 ;简单 地 讲 ， 一 个 无 偏 的 估计 量 是 指 当 反复 抽取 样本 的 次 数 足够 大 时 ， 由 这 些 样本 计算 出 来 的 该 估计 
量 的 均值 可 以 无 限 接近 被 估计 参数 的 真实 值 。 无 偏 估 计 的 实际 意义 就 说 无 系统 误差 。 


假设 比较 参数 6 的 两 个 无 偏 估 计 为 41 和 22， 反 复 抽取 样本 足够 多 次 时 ， 如 果 根 据 21 计 算 的 取 值 较 22 更 加 集中 在 被 估计 参数 6 的 真实 值 附 近 ， 换 句 话说 ， 也 就 是 估计 量 21 比 22 的 方差 更 小 ， 则 21 比 22 有 
效 。 


对 估计 量 来 说 ， 除 了 要 求 它 无 偏 、 方 差 较 小 以 外 ， 还 要 求 当 样 本 容量 n 增 大 时 ， 它 将 越 来 越 接近 于 被 估计 参数 9 的 真实 值 ， 这 个 要 求 是 很 自然 的 ， 因 为 当 n 越 大 时 ， 得 到 的 关于 总 体 的 信息 就 越 多 。 这 个 
标准 叫做 相合 性 ， 也 叫做 一 致 性 。 相 合 性 是 对 一 个 估计 量 的 基本 要 求 ， 若 估计 量 不 具有 相合 性 ， 那 么 不 论 将 样本 容量 n 如 何 扩 大 ， 都 不 能 将 参数 9 估计 得 足够 准确 ， 这 样 的 估计 量 是 不 可 取 的 。 在 大 样本 场合 
下 ， 极 大 似 然 法 一 般 都 具备 这 三 个 性 质 。 


10.1.2 ”区 间 估 计 


对 于 一 个 未 知 量 ， 人 们 在 测量 和 计算 时 ， 常 不 会 满足 于 仅 得 到 一 个 近似 值 ， 还 需 估 计 误 差 ， 即 要 求知 道 近似 值 的 精确 程度 。 类 似 地 ， 对 于 未 知 参数 6 来 说 ， 我 们 除了 关心 它 的 点 估计 2 之 外 ， 还 希望 估计 
出 一 个 范围 ， 并 希望 知道 参数 9 落 在 这 个 范围 内 的 可 信 程度 ， 这 就 是 区 间 估 计 。 这 样 的 范围 通常 以 区 间 的 形式 给 出 ， 这 样 的 区 间 即 参数 的 置信 区 间 。 


1. 置 信 区 间 


所 谓 置 信 区 间 ， 就 是 一 个 包含 统计 量 值 的 取 值 范围 ， 并 且 这 个 范围 在 一 定 置 信 水 平 下 包含 参数 6 的 真实 值 。 数 学 上 的 定义 是 ， 设 某 一 个 分 布 F (x; 6) ， 含 有 一 个 未 知 参数 6， 对 于 给 定 值 o， 若 由 样本 计 
算出 的 两 个 统计 量 6 和 6 (6<6) ， 满 足 P{19<6<6}>1-a， 则 称 随机 区 间 (9，6) 是 6 的 置信 水 平 为 1-c 的 置信 区 间 ，1-a 称 为 置信 水 平 ，a 称 为 显著 性 水 平 ，9 和 6 分 别称 为 置信 水 平 为 1-c 的 双 侧 置信 区 间 的 
置信 下 限 和 置信 上 限 。 例 如 ， 图 10.1 是 一 个 置信 区 间 的 例子 ， 括 号 括 起 来 的 部 分 表示 置信 区 间 ，x 是 样本 均值 ，H 是 总 体 均值 。 


H 


图 10.1 置信 区 间 示 意图 


置信 水 平 为 1-Q 的 置信 区 间 的 含义 是 : 对 于 一 个 确定 的 置信 水 平 1-ag， 若 反复 抽样 足够 多 次 ， 并 且 每 次 抽样 的 样本 容量 相等 ， 每 一 个 样本 都 确定 一 个 区 间 (6，6) ， 这 类 区 间 要 么 包含 6 的 真 值 ， 要 么 不 
包含 6 的 真 值 ， 如 10.2 图 所 示 (从 左边 第 二 条 竖 线 开始 ， 每 条 竖 线 代表 一 个 区 间 ) 。 那 么 根据 大 数 定律 ， 在 这 么 多 的 区 间 中 ， 包 含 6 的 真 值 的 区 间 约 占 100 (1-a) %， 不 包含 9 的 真 值 的 区 间 约 仅 占 100a%。 


例如 ， 在 对 总 体 的 均值 进行 区 间 估 计时 ， 置 信 水 平 为 95% 的 置信 区 间 (也 称 为 95% 置 信 区 间 ) 所 表达 的 含义 是 ， 如 果 从 总 体 中 重复 抽取 100 个 相同 样本 容量 的 样本 ， 并 且 计 算 了 出 100 个 置信 区 间 ， 则 这 
100 个 置信 区 间 中 有 95 个 包含 了 总 体 的 均值 。 


图 10.2 不 同样 本 下 的 置信 区 间 
置信 区 间 越 短 表示 估计 的 精度 越 高 ， 置 信 区 间 越 宽 表 示 估 计 的 精度 越 低 。 通 常情 况 下 ， 我 们 都 希望 能 提高 置信 水 平 ， 但 是 在 样本 容量 一 定 的 前 提 下 ， 提 高 置信 水 平 ， 势 必 会 导致 置信 区 间 变 宽 。 
2. 均 值 的 置信 区 间 


前 面 在 介绍 样本 均值 x 的 计算 方法 时 ， 也 介绍 了 用 来 衡量 样本 变异 程度 的 统计 量 样本 标准 差 s， 这 两 个 统计 量 都 是 用 来 刻画 样本 的 。 那 么 如 何 刻画 样本 均值 x 的 变异 程度 呢 ? 这 时 需要 引入 一 个 新 的 统计 
量 : 均值 标准 误差 (Standard Error of The Mean) sw，sx 的 计算 方法 如 下 : 


例如 ，Bream 的 宽度 样本 均值 为 15.18， 样 本 标准 差 为 1.96， 均 值 标 准 误差 为 :x V3. 约 为 0.332。 均 值 标 准 误差 是 刻画 样本 均值 相对 于 总 体 均 值 的 变异 程度 的 ， 该 误差 越 小 ， 估 计 越 精确 。 从 计算 公式 来 


看 ,我 们 可 以 通过 提高 样本 容量 来 提高 估计 的 准确 性 。 

对 于 服从 正 态 分 布 N (nH，o*) 的 随机 变量 X， 若 hb 未 知 ， 则 H 的 1-a 置 信 区 间 可 以 通过 以 下 方法 求 得 : 

* 当 已 知 时 ， 则 4 的 1-a 置 信 区 间 为 x-21.1/2x0 三 4 达 x+21.1/2x0， 当 1-% 为 0.95 时 ，z1.1/24=1.96。 

"当中 未 知 时 ， 则 的 1-x 置 信 区 间 为 (x-t* ss，x+t' ss) ， 这 里 的 t 值 是 根据 [分 布 及 w 计 算出 来 的 ， 当 样本 容量 足够 大 ，1-x 为 0.95 时 ，t 值 接近 于 1.96。 

@ 注 意 “根据 置信 区 间 的 计算 公式 ， 在 同样 的 置信 水 平 下 ， 要 提高 估计 的 精度 ， 只 能 增加 样本 容量 。 增 加 了 样本 容量 ， 则 均值 标准 误差 sx 将 减 小 ， 从 而 置信 区 间 的 宽度 也 将 变 窄 。 

在 计算 均值 的 置信 区 间 时 ， 我 们 会 假定 Xx 服从 正 仿 分 布 ， 但 是 通常 情况 下 ， 在 分 析 一 组 数据 时 ， 是 无 从 得 知 其 是 否 服从 正人 态 分 布 的 。 事 实 上 ， 只 要 满足 以 下 条 件 之 一 ， 就 可 以 通过 上 述 公式 计算 置信 区 
间 : 


总 体 服 从 正 态 分 布 o 


` 满足 中 心 极限 定理 的 条 件 。 中 心 极限 定理 指 的 是 在 样本 容量 足够 大 的 情况 下 ， 不 论 总 体 服从 何 种 分 布 ， 样 本 均值 都 服从 正 态 分 布 。 相 对 来 讲 ， 对 于 一 个 近似 的 对 称 分 布 ， 样 本 容量 必须 达到 30 及 以 


上 ; 若是 一 个 偏 态 分 布 ， 则 对 样本 容量 的 要 求 更 高 。 例 如 ，Bteam 的 样本 容量 为 35， 偏 度 系 数 为 0.2417， 分 布 基本 对 称 ， 满 足 中 心 极限 定理 的 条 件 ， 也 就 是 说 样本 的 均值 服从 正 态 分 布 。 


图 10.3 描 述 了 当 样 本 容量 增 大 时 ， 样 本 均值 的 分 布 趋 近 于 正 态 分 布 。 
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图 10.3 ”服从 指数 分 布 的 数据 分 布 直 方 图 


从 上 面 图 10.3 的 总 体 数据 中 ， 有 放 回 地 随机 抽取 了 1000 个 样本 容量 为 5 的 样本 ， 样 本 均值 分 布 则 如 图 10.4 所 示 。 
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图 10.4 1000 个 样本 容量 为 5 的 样本 均值 分 布 直方 图 


从 上 面 图 10.3 的 总 体 数据 中 ， 有 放 回 地 随机 抽取 了 1000 个 样本 容量 为 10 的 样本 ， 样 本 均值 分 布 则 如 图 10.5 所 示 。 
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图 10.5 1000 个 样本 容量 为 10 的 样本 均值 分 布 直方 图 


从 上 面 图 10.3 的 总 体 数据 中 ， 有 放 回 地 随机 抽取 1000 个 样本 容量 为 30 的 样本 ， 样 本 均值 分 布 则 如 图 10.6 所 示 。 
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可 以 看 出 ， 虽 然 样本 和 总 体 的 分 布 都 是 明显 的 偏 态 分 布 ， 但 是 当 样 本 容量 达到 30 时 ， 样 本 均值 的 分 布 基本 已 经 服从 正 态 分 布 。 
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图 10.6 ”1000 个 样本 容量 为 30 的 样本 均值 分 布 直 方 图 


例 10.1: 计算 Bream 的 平均 宽度 的 95% 置 信 区 间 。 


示例 代码 如 下 : 


proc means data= sashe lp. fish maxdec=2 n mean stqd stderr cilm; 
where species="Bream"; 
var height; 
title"95% Confidence Interval for Bream"; 
run;y 




















输出 内 容 如 图 10.7 所 示 。 


95% Confidence Interval for Bream 


MEANS PROCEDURE 


分 析 变 旦 : Height 


均值 95 蚁 ”均值 95 的 
N | 艾 伯 | 标准 磊 | 标准 民 关 | 置信 和 下限 | 置信 上 限 


35 | 15.18 1.96 0.33 14.21 15.86 


图 10.7 例 10.1 输 出 内 容 


统计 量 关键 字 STDERR 指 定 计 算 标准 误差 均值 ，CLM 指 定 计算 均 值 的 置信 区 间 。 在 本 例 中 ， 我 们 认为 区 间 (14.51，15.86) 包含 总 体 均值 的 可 能 性 有 95%。 并 且 ， 这 里 置信 区 间 的 宽度 很 窗 ， 基 本 上 ， 
可 以 认为 样本 均值 是 总 体 均值 的 一 个 比较 准确 的 估计 。 


在 MEANS 过 程 中 ， 可 以 使 用 选项 ALPHA= 来 计算 不 同 置信 水 平 的 置信 区 间 。ALPHA=0.01 表 示 计 算 99”% (也 就 是 1-ALPHA) 的 置信 区 间 。 默 认 情况 下 ，ALPHA=0.05。 


10.2 假设 检验 


在 总 体 的 分 布 函数 只 知 其 形式 ， 但 不 知 其 参数 的 情况 下 ， 或 者 对 总 体 分 布 完 全 未 知 的 情况 下 ， 为 了 推断 总 体 的 某 些 未 知 特征 ， 先 提出 某 些 天 于 总 体 的 假设 ， 然 后 要 根据 样本 ， 采 用 适当 的 方法 对 所 提出 
的 假设 作出 接受 或 者 拒绝 的 决策 ， 这 一 过 程 叫 做 假设 检验 。 假 设 检验 主要 分 为 参数 假设 检验 和 非 参数 假设 检验 。 


10.2.1 基本 原理 


以 下 通过 一 个 例子 来 介绍 假设 检验 的 基本 原理 和 做 法 。 


假设 我 们 手 里 有 一 个 一 块 钱 的 硬币 ， 通 常情 况 下 我 们 都 会 认为 硬币 的 质地 是 均匀 的 。 如 果 我 们 认为 手 里 的 这 个 硬币 有 可 能 是 不 均匀 的 ， 就 必须 有 足够 的 理由 来 证 明 。 为 了 证 明 该 硬币 不 均匀 ， 我 们 制定 
了 一 个 原则 ， 如 果 连 续 抛 郑 5 次 的 结果 都 是 正面 彰 上 或 者 反面 彰 上 ， 则 认为 该 硬币 是 不 均匀 的 ， 否 则 ， 认 为 没有 足够 的 证 据 证 明 该 硬币 是 不 均匀 的 。 因 此 ， 我 们 连续 抛 郑 了 5 次 硬币 ， 并 收集 结果 。 有 了 抛掷 
的 数据 ， 就 可 通过 其 正面 朝 上 或 者 反面 朝 上 的 次 数 来 判断 该 硬币 是 否 均 匀 了 。 

在 这 里 ,该 硬币 是 均匀 的 这 一 假设 就 是 原 假设 ， 记 为 HOo， 如 果 没 有 充分 的 证 据 ， 不 能 认为 这 枚 硬币 是 不 均匀 的 。 和 Ho 不 相 容 的 假设 ， 也 就 是 硬币 是 不 均匀 的 假设 ， 称 为 备 择 假设 ， 记 为 H1。 在 这 个 例 
子 中 ， 即 使 硬币 是 均匀 的 ， 也 有 可 能 通过 上 述 检验 方法 做 出 拒绝 Ho 的 判断 ， 我 们 把 原 假设 Ho 为 真 时 ， 拒 绝 原 假 设 Ho 的 所 犯 的 错误 ， 称 为 第 一 类 错误 或 弃 真 错误 ; 另 一 方面 ， 即 使 硬币 是 不 均匀 的 ， 也 有 可 
能 做 出 接受 Ho 的 判断 ， 我 们 把 原 假设 Ho 为 假 时 ， 接 受 原 假设 Ho 所 犯 的 错误 ， 称 为 第 二 类 错误 或 者 取 伪 错误 ， 如 图 10.8 所 示 。 犯 第 一 类 错误 的 概率 记 为 aq， 犯 第 二 类 错误 的 概率 记 为 B， 即 


a=P{ 犯 第 一 类 错误 }=P{ 拒 绝 Ho|Ho 为 真 }， 


B=P{ 犯 第 二 类 错误 }=P{ 接 受 Ho|Ho 为 假 }。 


犯 第 一 类 舍 读 判断 正确 


判断 正确 犯 审 二 类 和 钵 话 





图 10.8 第 一 类 错误 和 第 二 类 错误 


通常 ， 称 1-B 为 检验 功效 ， 即 不 犯 第 二 类 错误 的 概率 ， 也 就 是 正确 地 拒绝 原 假设 HO 的 概率 。 我 们 当然 希望 犯 两 类 错误 的 概率 都 尽 可 能 小 ， 但 是 当 样 本 容量 固定 时 ， 要 使 犯 第 一 类 错误 和 第 二 类 错误 的 概 
率 c 和 同时 变 小 是 不 可 能 的 ， 减 小 犯 第 一 类 错误 的 概率 势必 会 增 大 犯 第 二 类 错误 的 概率 ， 反 之 亦 然 ， 此 消 彼 长 。 因 而 ，Neyman 和 Pearson 提 出 一 个 原则 ， 即 在 控制 犯 第 一 类 错误 的 概率 ax 的 条 件 下 ， 尽 量 
使 得 犯 第 二 类 错误 的 概率 B 尽 量 小 。 这 一 原则 的 含义 是 ， 原 假设 要 受到 保护 ， 不 轻易 否定 ; 若 检验 结果 否定 了 原 假 疫 ， 则 说 明和 否定 的 理由 是 充分 的 。 所 以 在 实际 问题 中 ， 为 了 通过 样本 观测 值 对 某 一 陈述 取得 
强 有 力 的 支持 ， 通 常 把 这 种 陈述 本 身 作为 备 择 假设 ， 而 将 这 种 陈述 的 否定 作为 原 假设 。 


在 统计 推断 中 ， 这 种 只 控制 cx 而 不 考虑 B 的 假设 检验 ， 称 为 显著 性 检验 ，c 称 为 显著 性 水 平 。 最 常用 的 c 的 取 值 为 0.05、0.01、0.001 等 。 一 般 情况 下 ， 根 据 研 究 的 问题 ， 如 果 犯 弃 真 错误 损失 大 ， 为 减少 
这 类 错误 ，c 的 取 值 应 适当 地 小 ， 反 之 c 的 取 值 可 以 适当 大 一 些 。 


假设 检验 的 基本 步骤 可 以 分 为 如 下 4 步 : 

1) 根据 实际 问题 和 已 知 信息 提出 原 假 设 和 备 择 假设 ， 如 

Ho: 0=60，H1: 6 天 60， 

或 者 ，Ho: 6 和 60，HI : 6>00， 

或 者 ，H0: 6>>60，HI: 6<60， 

或 者 ,Ho: F (x) =Fo (x) ，Hi: F (x) FU CD ， 

其 中 ，6 为 总 体 分 布 中 的 未 知 参数 ，60 为 参数 空间 中 的 一 个 已 知 数 。F (x) 为 总 体 的 分 布 函 数 ，F0 (x) 为 某 特定 的 分 布 函 数 。 必 须 注意 ， 原 假设 Ho 一 般 是 根据 实际 问题 提出 的 ， 往 往 是 从 过 去 的 经 验 和 


信息 中 总 结 和 提炼 出 来 的 ， 没 有 充分 理由 或 者 非常 不 利于 原 假设 的 观察 结果 是 不 能 拒绝 它 的 。 有 时 ， 通 过 检验 不 同 的 原 假设 ， 可 能 会 得 出 完全 相反 的 结果 。 因 此 ， 提 出 什么 样 的 原 假设 就 比较 重要 了 ， 应 当 
更 具 以 往 的 信息 和 经 验 仔 细 考 虑 ， 提 出 适当 的 原 假设 。 当 根据 样本 数据 拒绝 了 原 假设 时 ， 就 说 明 原 假设 是 显著 不 成 立 的 。 


2) 给 定 的 显著 性 水 平 〈 犯 第 一 类 错误 的 概率 ) a。 

3) 收集 整理 数据 。 

4) 根据 已 知 的 样本 数据 ， 计 算出 P 值 ， 做 出 是 否 拒绝 Ho 的 判断 ， 判 断 的 基本 思想 是 小 概率 事件 原理 。 

P 值 由 已 知 样本 计算 出 来 的 ， 表 示 在 原 假设 Ho 为 真 的 情况 下 观测 到 该 样本 或 比 该 样本 更 加 极端 的 样本 的 概率 。 一 个 大 的 P 值 表示 在 原 假设 Ho 为 真 的 情况 下 ， 观 测 到 该 样本 发 生 的 概率 很 大 ; 当 P 值 很 小 


时 ， 表 示 在 原 假设 Ho 为 真 的 情况 下 ， 观 测 到 这 个 样本 的 概率 很 小 ， 那 么 这 个 本 来 应 该 是 小 概率 的 事件 发 生 了 ， 我 们 就 有 足够 的 证 据 怀疑 这 一 假设 的 真实 性 ， 从 而 拒绝 原 假设 Ho。 这 就 是 假设 检验 的 基本 原 
理 。 


例如 ， 在 前 面 扔 硬币 的 例子 当中 ， 如 果 原 假设 为 硬币 是 均匀 的 ， 如 果 在 100 次 试验 当中 ， 观 测 到 了 40 次 正面 ，60 次 反面 ， 根 据 这 个 样本 计算 出 来 的 P 值 就 表示 在 硬币 是 均匀 的 前 提 下 ， 在 100 次 这 样 的 试 
验 中 观测 到 40 或 小 于 40 次 正面 的 概率 。 


判断 原则 : 
当 P 值 >a， 接 受 原 假设 Ho; 当 P 值 <qa， 拒 绝 原 假设 Ho。 


SS 注意 ”在 上 面 进 行 假设 检验 的 过 程 中 ， 显 著 性 水 平 a 是 在 收集 整理 数据 之 前 设 定 的 ，a 的 大 小 主要 取决 于 用 户 可 以 接受 的 犯 第 一 类 错误 当 原 假设 为 真 时 ， 拒 绝 原 假设 ) 的 代价 。 如 果 犯 第 一 类 错误 的 
代价 极 大 ， 则 需要 设 定 较 小 的 x， 如 0.01。 

上 面 已 经 讲 了 ， 在 样本 容量 一 定 的 情况 下 ，a 和 B 此 消 彼 长 ， 要 同时 减 小 a 和 B 就 只 能 增加 样本 容量 了 。 若 Bb 的 值 太 大 ， 则 需要 增加 样本 容量 n 使 得 B 变 小 。 如 果实 际 问题 不 需要 B 太 小 ， 则 可 以 考虑 适当 减 
小 n， 以 减少 人 力 物力 。 关 于 如 何 确定 样本 容量 和 B 的 关系 ,在 本 章 中 不 展开 讲 ， 有 兴趣 的 读者 可 以 参考 SAS 帮 助 文档 中 关于 POWER 过 程 的 介绍 。 


10.2.2 TT 分 布 与 1 检验 


T 检 验 ， 也 称 为 Student T 检 验 ， 是 运用 T 分 布 理论 和 假设 检验 原理 进行 样本 均 数 与 总 体 均值 的 比较 以 及 两 样本 均值 的 比较 ， 由 于 TT 分布 是 在 正 态 分 布 总 体 的 抽样 中 出 现 的 ， 所 以 理论 上 要 求 样 本 来 自 正 态 
分 布 总 体 。T 检 验 主 要 设计 用 于 样本 容量 较 小 (例如 n<30) 、 总 体 标准 差 o 未 知 的 正 态 分 布 样本 的 均值 检验 ， 但 是 实际 在 样本 容量 较 大 的 情况 下 它 也 同样 适用 。 总 的 来 讲 ， 只 要 数 样 本 满足 正 态 性 条 件 ， 就 
可 以 运用 T 检 验 进行 均值 比较 。 满 足以 下 两 个 条 件 之 一 ， 即 满足 正 态 性 条 件 : 


* 样本 来 自 正 态 分 布 总 体 。 
. 样本 容量 足够 大 。 如 果 样 本 是 对 称 分 布 ， 样 本 容量 达到 30 时 即 可 ; 如 果 样 本 不 是 对 称 分 布 ， 则 样本 容量 应 更 大 。 
T 检 验 分 为 单 样本 均值 [检验 和 双 样 本 均值 检验。 


单 样本 均值 T 检 验 用 于 检验 一 个 样本 均值 与 一 个 已 知 的 总 体 均 值 的 差异 是 否 显著 ， 统 计量 t 为 : 


及 一 
i le 


一 


Pd, 
其 中 X 为 样本 均值 ，H0 为 总 体 均值 ，s 为 样本 标准 差 ，…(3“™*") ， 自 由 度 为 n-1。 统 计量 {t 可 以 用 来 描述 样本 均值 X 和 总 体 均 值 的 差异 。 


当 检 验 的 原 假设 Ho 和 备 择 假设 H1 分 别 为 Ho: h=ho，H1: pHO 时 ， 如 果 我 们 要 拒绝 原 假设 Ho， 则 统计 量 t 的 取 值 必须 远大 于 0 或 者 远 小 于 0， 如 图 10.9 所 示 。 可 以 看 到 ， 位 于 T 分 布 曲线 的 两 段 尾巴 处 ， 
对 应 的 p 值 (也 就 是 两 段 尾 巴 处 的 累积 概率 密度 ， 即 P_(〈{|Pr|> 廿 ) ) 应 该 很 小 。 
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ey 
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图 10.9 ”分 布 密度 曲 线 与 正 态 分布 密 度 曲 线 示意 图 


双 样 本 均值 T 检 验 用 于 检验 两 个 样本 各 自 所 代表 的 总 体 的 均值 的 差异 是 否 显著 。 双 样本 均值 T 检 验 分 为 两 种 情况 ， 一 种 是 独立 双 样 本 均值 T 检 验 ， 一 种 是 配对 样本 均值 T 检 验 。 更 详细 的 介绍 将 在 后 面 展 


例 10.2: 运用 UNIVARIATE 过 程 中 的 选项 MU0= 来 检验 Bream 的 平均 宽度 是 否 等 于 14。 


示例 代码 如 下 : 








proc univariate data=sashelp.fish mu0=14; 
where species="Bream"; 
Var height; 
title "Testing whether the mean of Bream height = 14 "7 
run; 








在 上 述 程序 中 ， 选 项 MU0= 指 定 了 位 置 检 验 中 原 假设 的 总 体 均 值 或 者 位 置 的 参数 值 。 
部 分 输出 如 图 10.10 所 示 。 


其 中 ， 统 计量 t 标 记 为 “Student t”，p 值 标记 为 “Pr>|tl|”， 统 计量 t 的 取 值 为 3.562859，p 值 为 0.0011。 因 此 ， 在 显著 性 水 平 为 0.05 时 ，p 值 <0.05， 可 以 拒绝 原 假设 ， 认 为 该 湖 中 Bream 的 平均 宽度 和 
14 具 有 显著 差异 。 符 号 检验 (Sign) 和 符号 秩 检 验 (Signed Rank) 都 是 非 参 数 检 验方 法 。 在 利用 T 分 布 理论 进行 均值 假设 检验 时 ， 需 要 样本 满足 正 态 性 条 件 ; 当 样 本 不 能 满足 正 态 性 条 件 时 ， 可 以 运用 符 
号 检验 和 符号 秩 检 验 ， 计 算 P 值 ， 再 做 出 是 否 拒绝 原 假设 的 决定 。 


3.562859 | Pr> 上 | 








8.5 | Pr >= |MI| 








图 10.10” 例 10.2 输 出 内 容 


10.2.3 ”TTEST 过 程 
TTEST 过 程 可 以 进行 单 样本 、 独 立 双 样本 、 配 对 样本 均值 检验 和 置信 区 间 的 计算 ， 并 且 可 以 绘制 直方 图 、 分 位 数 -分 位 数 图 (Q-Q 图 ) 、 盒 状 图 和 置信 区 间 图 。TTEST 过 程 的 基本 语法 如 下 : 


PROC TTEST DATA= 数 据 集 ; 
CLASS 两 样本 检验 的 分 类 变量 ; 
PAIRED 配 对 样本 检验 的 变量 ; 

VAR 分 析 的 变量 ， 

RUN; 





| 











其 中 : 
:CLASS 语句 只 能 指定 一 个 分 类 变量 ， 并 且 该 分 类 变量 只 能 有 两 个 不 同 的 取 值 ， 如 果 TITEST 过 程 没有 使 用 CLASS 语句 ， 则 系统 将 进行 单 样本 均值 T 检 验 。 当 TTEST 过 程 中 使 用 了 CLASS 语句 时 ， 系 统 将 进 
行 独立 双 样 本 均值 了 检验。 


. PAIRED 语 和 句 指定 在 进行 配对 样本 均值 了 检验 时 的 配对 变量 组 ， 一 个 PAIRED 语 和 句 中 可 以 指定 一 个 或 者 多 个 配对 变量 组 。 


.VAR 语句 指定 需要 分 析 的 数值 型 变量 。 


TTEST 过 程 常会 输出 置信 区 间 图 与 Q-Q 图 ， 这 里 先 对 此 简单 介绍 一 下 。 置 信 区 间 图 是 将 样本 的 统计 量 (如 均值 ) 和 置信 区 间 通 过 图 形 方式 展现 出 来 ， 如 图 10.11 所 示 。 


原 假设 指定 的 伍 


均值 : kK 
具有 95% 演 信和 区 间 
心 均值 宇 慎 


JR 





置信 区 间 


图 10.11 置信 区 间 图 


如 果 原 假设 指定 的 值 ( 空 值 ， 也 称 为 零 值 ) 包含 在 〈1-a) % 置 信 区 间 中 ， 则 在 显著 性 水 平 a 下 不 能 拒绝 原 假设 ;如 果 原 假设 指定 的 值 不 包含 在 (1-aq) % 置 信 区 间 中 ， 则 在 显著 性 水 平 c 下 应 拒绝 原 假 


Q-Q 图 和 概率 图 类 似 ， 是 一 种 以 指定 分 布 的 分 位 数 为 横 坐 标 、 样 本 值 为 纵 坐标 的 散 点 图 ， 如 图 10.12 所 示 。Q-Q 图 运用 实际 数据 的 分 位 数 与 所 指定 分 布 的 分 位 数 之 间 的 关系 曲线 来 检验 数据 是 否 服从 指定 


分 布 ， 若 图 中 的 散 点 都 近似 地 在 一 条 直线 附近 ， 则 认为 数据 近似 服从 指定 分 布 。 在 TTEST 过 程 中 ，Q-Q 图 用 来 检验 数据 是 否 近 似 服 从 正 态 分 布 。 
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图 10.12”Q-Q 图 


10.2.4 单 样本 均值 T 检 验 
如 前 所 述 ， 单 样本 均值 T 检 验 是 用 于 检验 一 个 样本 均值 与 一 个 已 知 的 总 体 均值 的 差异 是 否 显著 的 。 下 面 来 看 看 示例 。 
例 10.3: 运用 TTEST 过 程 检验 Bream 的 平均 宽度 是 否 等 于 14。 


示例 代码 如 下 : 











proc ttest data=sashelp.fish h0=14 plots (shownull)=interval; 
where species="Bream"; 
var height; 
title "Testing whether the mean of Bream height = 14 " 
"Using PROC TTEST";} 

run; 


























在 上 述 程序 中 ， 选 项 H0= 指 定 了 位 置 检验 中 原 假 设 的 总 体 均值 或 者 位 置 参数 值 ， 默 认 情 况 下 ，H0=0。 选 项 PLOTS (SHOWNULL) =INTERVAL 指 定 作 置信 区 间 图 ，SHOWNULL 指 定 在 置信 区 间 图 中 根 
据 原 假设 的 值 作 一 条 竖 直 的 参考 线 。 


输出 内 容 如 图 10.13 所 示 。 
Testing whether the mean of Bream height = 14 Using PROC TTEST 
TTEST 过 程 
蛮 至 * Height 
N 均值 | 标准 差 | 标准 误差 最 小 值 | 最 大 值 
35 | 15.1832 | 1.9647 | ”0.3321 | 11.5200 | 18.9570 


均值 | 95% 置信 限 均值 | 标准 差 | 95% 置信 限 标准 差 
15.1832 | 14.5083 | 15.8581 | 1.9647 1.5892 2.5742 


图 10.13 TITIEST 过 程 描述 统计 量 报 表 


其 中 ， 输 出 的 第 一 个 报表 是 描述 性 统计 量 ， 和 UNIVARIATE 过 程 中 输出 的 值 一 样 。 第 二 个 报表 是 样本 均值 、95% 置 信和 区间 ， 注 意 到 95% 置 信和 区间 未 包含 原 假 设 的 取 值 14， 这 说 明了 在 显著 性 水 平 a=0.05 
下 ， 有 充分 的 证 据 证 明 Bream 的 宽度 不 等 于 14。 


P 值 =0.0011<0.05 也 证 明了 这 一 点 (如 图 10.14 所 示 ) ， 应 拒绝 原 假 设 。TTEST 过 程 计 算得 出 的 P 值 和 UNIVARIATE 过 程 中 的 一 样 。 


Pr> 





34 | 3.56 | 0.001 


图 10.14 TITEST 过 程 工 值 报表 


接 下 来 是 默认 输出 的 直方 图 和 Q-Q 图 ， 如 图 10.15 和 图 10.16 所 示 。 因 为 在 PROC TTEST 语 句 中 制定 了 选项 PLOTS， 所 以 同时 也 输出 了 置信 区 间 图 ， 如 图 10.17 所 示 。 


分 布 : Height 
有 具有 95% 置 信 区 间 的 均值 
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图 10.15 ” 例 10.3 直 方 图 


以 下 对 象 的 Q-Q 图 : Height 
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分 位 数 
图 10.16 ” 例 10.3Q-Q 图 


在 图 10.16 所 示 的 Q-Q 图 中 ， 数 据 都 近似 地 分 布 在 直线 附近 ， 可 以 近似 地 认为 数据 服从 正 态 分 布 ， 也 就 是 说 ， 上 述 T 检 验 的 前 提 条 件 ( 正 态 性 条 件 ) 是 满足 的 。 


均值 : Height 
具有 95% 置信 区 间 
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图 10.17 例 10.3 置 信 区 间 图 
10.2.5 ”独立 双 样 本 均值 T 检 验 


在 双 样 本 条 件 下 ， 也 可 以 通过 构造 t 统 计量 利用 T 分 布 理论 来 比较 两 样本 所 代表 的 总 体 的 均值 是 否 有 显著 差异 ， 如 果 两 个 样本 是 完全 独立 的 ， 该 检验 就 叫做 独立 双 样 本 均值 T 检 验 ， 如 图 10.18 所 示 。 
进行 独立 双 样 本 均值 T 检 验 时 ， 样 本 必须 满足 以 下 3 个 条 件 : 

两 个 样本 中 的 观测 之 间 是 相互 独立 的 。 这 一 条 件 通 常 是 在 试验 设计 阶段 考虑 完成 的 。 

. 两 个 样本 必须 分 别 来 自 正 态 分 布 总 体 ， 当 样本 量 足 够 大 时 ， 可 以 认为 该 条 件 满 足 。 最 简单 的 ， 可 以 通过 作 散 点 图 、 直 方 图 或 者 Q-Q 图 来 观察 样本 是 否 服从 正 态 分 布 。 


. 两 个 样本 方差 相等 。 两 个 样本 方差 相等 的 检验 ， 也 称 为 两 样本 方差 齐 性 检验 ， 可 以 通过 构造 F 统 计量 及 F 统 计量 的 分 布 理论 进行 检验 。 这 种 检验 称 为 F 检 验 。F 检 验 的 原 假设 Ho 和 备 择 假设 Hi 如 图 10.19 


所 示 。 


统计 量 ” ” 当 原 假设 Ho 为 真 时 ，F 的 取 值 趋 近 于 1， 相 应 的 P 值 也 应 比较 大 (p>0.05) 。 


Comparing Two Populations 








, 其 有 Ee 
Boys Girls 
图 10.18 ”独立 双 样 本 均值 检验 的 假设 条 件 示 意图 


进行 F 检 验 时 ， 数 据 必 须 服从 正 态 分 布 ， 即 使 样本 量 很 大 时 ， 也 要 求 数据 服从 正 态 分 布 。 这 个 条 件 相对 比较 苛刻 ， 当 数据 不 服从 正 态 分 布 ， 我 们 只 能 通过 作 图 来 大 致 判断 两 样本 的 方差 是 否 近 似 相等 。 当 
方差 齐 性 条 件 不 满足 时 ， 可 以 使 用 近似 T 检 验 (结果 也 在 TTEST 过 程 中 自动 输出 ) 。 


， 2 2 
Hi .O10, 





图 10.19 ”方差 齐 性 检验 示意 图 
在 进行 1 检验 时 ， 必 须 逐 条 检查 上 述 3 个 假设 条 件 是 否 满足 ， 当 不 满足 以 上 假设 条 件 时 ， 使 用 T 检 验 或 者 近似 T 检 验 可 能 导致 不 准确 的 结论 。 
使 用 T 检 验 进行 双 样 本 均值 比较 时 ， 原 假设 Ho 和 备 择 假设 H1 分 别 如 下 : 
Ho: Mi-ho=0 
Hi: pi-h2#0 


例 10.4: 某 次 考试 后 ， 教 导 主 任 欲 分 析 在 该 次 考试 中 男生 与 女生 的 学 习 成 绩 是 否 存在 显著 性 差异 ， 因 此 在 该 学 校 参 加 考试 的 1000 名 学 生 中 ， 随 机 抽取 了 100 名 同学 作为 样本 ， 并 保存 在 数据 集 ex.score 
中 ， 数 据 集 中 包含 ID、Score 和 Gender 三 个 变量 ， 其 中 部 分 数据 如 图 10.20 所 示 。 
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下 面 运 用 T 检 验 比较 ex.score 中 男生 和 女生 学 习 成 绩 是 否 有 差异 。 


proc ttest data=ex.score plots (shownull)=interval; 
class gender; 
var score; 
title “Two Sample 七 test for Boys and Girls"; 
run; 


在 运用 TTEST 过 程 进行 检验 时 ， 首 先 要 检查 数据 是 否 满 足 T 检 验 的 正 态 性 条 件 。 


TTEST 过 程 中 默认 输出 的 直方 图 和 Q-Q 图 可 以 快速 检查 数据 是 否 满足 正 态 性 条 件 ， 如 图 10.21 和 图 10.22 所 示 。 
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图 10.21 例 10.4 直 方 图 


可 以 看 到 ，Q-Q 图 显示 数据 点 都 集中 在 直线 附近 ， 可 以 判断 两 个 组 中 数据 都 服从 近似 正 态 分 布 。 如 果 从 Q-Q 图 中 看 出 数据 明显 不 服从 正 态 分 布 ， 且 样本 容量 不 大 时 ， 可 以 使 用 非 参数 检验 方法 比较 两 组 
数据 的 均值 是 否 存 在 显著 差异 ，SAS 中 的 NPAR1WAY 过 程 可 以 进行 该 项 非 参数 检验 (将 在 10.3 节 中 介绍 ) 。 


以 下 对 象 的 Q-Q 图 : score 





图 10.22” 例 10.4Q-Q 图 


TTEST 过 程 输出 的 统计 报表 如 图 10.23 所 示 。 
第 1 张 报表 中 展示 了 两 组 样本 的 描述 性 统计 量 及 两 组 样本 均值 之 差 的 标准 差 和 标准 误差 。 


首先 来 看 一 下 第 4 张 报表 ， 第 4 张 报表 输出 的 是 方差 齐 性 检验 的 结果 ， 如 图 10.24 中 的 第 3 张 表 所 示 。 由 于 前 面 已 经 得 知 ， 两 个 样本 都 近似 服从 正 态 分 布 ， 因 此 可 以 使 用 F 检 验 进 行 两 样本 方差 齐 性 检验 ，F 
值 =1.05， 趋 近 于 1， 并 且 对 应 的 P 值 =0.8920>0.05， 因 此 不 能 拒绝 原 假设 ， 也 就 说 在 显著 性 水 平 a=0.05 的 情况 下 ， 不 能 拒绝 两 样本 方差 相等 的 原 假设 。 


Two Sample t test for Bows and Ginrls 
TTEST 过 抱 
态 量 : Score 
Gender  N | 均值 | 标准 差 ”标准 误差 。 最 小 值 最 大 值 
Female | 50 | 73.1200 | 10.5379 1.4903 48.0000 | 99.0000 
Male 3U | 69.1200 10.33435 1.4613 | 1.0000 | 3.000( 





差 (1-2) 40000 | 10.4367 2.0873 


图 10.23 ” 例 10.4 描 述 统 计量 报表 


Gender | 方法 均值 | 辆 物 置信 限 均 值 | 标准 差 | 策 和 置信 限 标准 差 
Female 73.1200 | 70.1252 | 76.1148 | 10.5379 | 8.8026 | 13.1316 
Maile 569.1200 | 66.1830 | 72.0570 | 10.3345 | 8.6327 | 12.8781 


方 芝 并 性 下 40000 | -0.1422 | 8.1422 | 10.4367 | 9.1578 | 12.1340 
































40000 -0.1423 | 8.1424 


方 靶 非 并 性 下 


方 斌 方 专 辐 由 麻 | 1 们 | Pr> 问 
方 到 并 性 下 和 和 总 | 等 于 of | 192 | 0.0582 


方差 非 齐 性 站 Samtterthwaie | 址 莹 于 | 97.963 | 1.92 | 0.0582 


























方 荐 等 价 
方法 分 子 自 由 度 | 分 鲜 自 由 麻 F 值 | Pr>F 
所 量 的 F 4 49 1.04 | 0.8920 


图 10.24 例 10.4TTEST 过 程 部 分 报表 


然后 再 来 看 第 2 张 和 第 3 张 报表 中 T 检 验 的 结果 (如 图 10.24 中 的 第 1 张 和 第 2 张 表 所 示 ) 。 在 TTEST 过 程 中 ， 系 统 自 动 输出 了 方差 齐 性 满足 和 不 满足 两 种 情况 下 T 检 验 的 结果 〈 后 者 也 称 为 近似 T 检 验 ) 。 当 
方差 齐 性 条 件 满足 时 ， 应 查看 汇总 方法 (Pooled) 的 T 值 与 P 值 ; 当 方差 齐 性 条 件 不 满足 时 ， 应 查看 Satterthwaite 方 法 的 T 值 与 P 值 。 这 里 我 们 已 经 知道 方差 齐 性 条 件 满 足 了 ， 且 汇总 方法 对 应 的 T 值 
=1.92，P 值 =0.0582>0.05， 所 以 没有 足够 的 证 所 证 明 男 生 和 女生 的 考试 成 绩 存 在 显著 差异 。 同 时 ， 在 第 2 张 报表 中 ， 均 值 之 差 的 95% 置 信和 区间 为 (-0.1422，8.1422) ， 包 含 了 0， 上 暗合 在 95% 置 信 水 平 下 男 
生 和 女生 考试 成 绩 的 差别 不 大 。 


最 后 ， 来 看 两 组 均值 之 差 的 置信 区 间 图 ， 如 图 10.25 所 示 。 


均值 : “score ”差分 (Female - Male) 
具有 95% 置信 区 间 


今 均值 一 一 一 一 空 值 


Satterthwate 


i 
1 


0 2 4 6 8 
图 10.25” 例 10.4 置 信 区 间 图 


因为 两 组 的 方差 非常 接近 ， 所 以 T 检 验 (汇总 ) 和 近似 T 检 验 (Satterthwaite) 的 置信 区 间 及 P 值 都 非常 接近 ， 并 且 置 信 区 间 都 包含 了 0， 和 第 2 张 报表 中 的 输出 一 致 。 
1. 根 据 统计 数据 进行 T 检 验 


有 些 时 候 ， 在 医学 临床 试验 中 ， 我 们 并 不 能 直接 接触 样本 数据 ， 只 能 获取 一 些 样本 数据 的 统计 结果 ， 如 样本 容量 、 均 值 、 标 准 差 等 统计 量 ， 这 时 通过 TTEST 过 程 也 可 以 进行 两 样本 均值 的 比较 。 


例 10.5: 通过 数据 集 ex.score 计 算出 样本 容量 、 均 值 、 标 准 差 、 最 大 值 、 最 小 值 等 统计 量 ， 并 保存 在 数据 集 work.summary 中 ， 然 后 再 运用 TTEST 过 程 分 析 work.summary。 注 意 查 看 结果 是 否 与 例 10.4 
相同 。 


示例 代码 如 下 : 





proc sort data=ex.score; 

by gender; 

Luns; 

proc means data=ex.scorenoprint; 
var score; 

by gender; 

output out=work.summary; 

run; 
proc print data=work.summary; 
title "Work.Summary"; 

run; 











查看 Work.Summary 中 的 数据 ， 如 图 10.26 所 示 。 其 中 包含 了 5 个 变量 ，Gender 表 示 分 组 变量 ，_TYPE 和 _FREQ 是 系统 默认 输出 变量 ，_STAT 表示 统计 量 名 称 ， 有 5 个 不 同 的 取 值 ， 分 别 为 N、MIN.、 
MAX、MEAN、STD，Score 是 原 数 据 集中 的 分 析 变 量 ， 这 里 保存 了 各 个 统计 量 的 值 。 
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图 10.26 ”数据 集 work.summary 内 容 


示例 代码 如 下 : 





ata=work.summary; 








"Two Sample 七 test for Boys and Girls Using Summary Statistics"; 


输出 如 图 10.27 所 示 。 


Two Sample t test for Bovs and Gs Using Summary Statistics 
TTEST 过 程 
过 是- score 
Female | 50 731200 1053479 1.4903 | 48.0000 | 的 .0000 
Male |50 69.1200 10.3345 1.4615 | 41.0000 | 93.0000 
差 (1-2) 40000 10.4367 2.0873 


Gender | 方法 均值 ”95% 二 信和 限 均值 | 标准 差 95% 至 信 限 标准 差 
Famale 73.1200 JO 2 F611A48 | 10 5479 | S8026 | 13.1316 
ale 69.1200 | 66.1830 20570 | 10.3345 | 86327 | 12.8781 
其 (1-2) 汇总 40000 -O1422 81422 10.4367 | 9.1578 | 12.1340 
差 (1-2) | Satenthwaite | 4.0000 -0.1423 8.1423 


方法 方差 | 自由 麻 | t 导 ' Prs 串 
4 等 于 88 | 1.92 | 0.0582 


Satternthnwaite | 不 等 于 | 97.963 | 1.92 | 0.0582 


方法 分 子 自 由 度 | 分 母 自由 廉 | F 值 Pr>F 
折 盘 的 F 49 49 1.04 0.8920 


图 10.27” 例 10.5TTEST 过 程 报表 
可 以 看 出 ， 这 里 TTEST 过 程 中 除了 没有 输出 默认 的 直方 图 和 Q-Q 图 (因为 直方 图 和 Q-Q 图 需要 有 原始 观测 值 才 能 画 出 ) 以 外 ， 其 余 的 报表 和 例 10.4 中 一 模 一 样 。 


在 运用 TTEST 过 程 进行 T 检 验 时 ， 当 数据 集中 包含 变量 TYPE 或 者 STAT_ 时 ， 系 统 默 认输 入 的 数据 集 是 一 个 统计 结果 ， 而 非 原始 数据 。 在 此 种 情况 下 ，_STAT 的 取 值 必须 包含 统计 量 N、MEAN 和 
STD。 如 果 数 据 集中 不 包含 这 3 个 统计 量 ， 系 统 将 报错 。 


GG 注意” 虽然 使 用 统计 结果 也 可 以 进行 均值 检验， 但 是 仅 从 统计 结果 中 ， 我 们 无 从 得 知 数据 的 分 布 情况 ， 在 输出 T 检 验 的 结果 时 ， 也 没有 办 法 检查 数据 是 否 服从 检验 的 假设 条 件 。 当 汇总 方法 和 
Satterthwaite 方 法 的 P 值 差别 比较 大 时 ， 就 无 法 分 辨 该 依据 哪 种 方法 的 P 值 给 出 接受 原 假设 或 者 拒绝 原 假设 的 结论 。 


2. 单 边 T 检 验 


在 独立 双 样 本 均值 [检验 中 ， 我 们 不 仅 关注 两 个 样本 所 代表 的 总 体 的 均值 是 否 存在 差异 ， 更 加 关注 某 一 样本 所 代表 总 体 的 均值 是 不 是 显著 比 另 一 样本 所 代表 总 体 的 均值 更 高 或 者 更 低 。 例 如 ， 在 某 种 新 降 
血压 药品 的 研发 过 程 中 ， 公 司 更 关注 的 是 该 种 药品 是 否 真 的 能 起 到 降 血 压 作 用 ， 某 三 引进 一 种 新 方法 生产 固体 燃料 推进 器 ， 该 厂 更 关注 在 新 方法 下 生产 的 推进 器 的 燃烧 率 是 否 较 以 往生 产 的 有 显著 的 提高 
等 。 这 种 类 型 的 均值 假设 检验 称 为 单 边 T 检 验 。 单 边 检 验 不 仅 可 以 在 双 样 本 的 情况 下 运用 ， 在 单 样本 的 情况 下 同样 适用 。 


单 边 T 检 验 的 原 假设 Ho 和 备 择 假设 H1 分 别 为 : 

Ho: u<k, Hi: R>K 

或 者 ，Ho: AZ>K，HI: ph<k 

在 TTEST 过 程 中 ， 选 项 SIDES=U 的 原 假设 Ho 和 备 择 假设 H1 分 别 为 
Ho: p<k, Hi: n>k 


选项 SIDES=L 的 原 假设 Ho 和 备 择 假设 H1 分 别 为 


Ho: Lk, Hi : LL<k 


单 边 T 检 验 除 了 在 双 样 本 情况 下 适用 ， 在 单 样本 情况 下 也 适用 。 


在 上 面 分 析 学 生 考 试 成 绩 的 例子 中 ， 根 据 以 往 的 考试 结果 和 升学 率 ， 该 校 教导 主任 一 直 认 为 男生 考试 成 绩 普遍 比 女生 考试 成 绩 好 ， 但 是 最 近 他 似乎 觉得 情况 开始 友 生 了 转变 ， 他 偏向 于 认为 现在 女生 的 


考试 成 绩优 于 男生 的 考试 成 绩 ， 因 此 他 希望 通过 分 析 这 次 的 考试 成 绩 来 证 明 他 的 观点 。 那 么 ， 他 分 析 的 备 择 假 设 H1 应 该 是 : 女生 的 平均 成 绩 > 男 生 的 平均 成 绩 ， 也 就 是 u1-H2>0， 那 么 原 假 设 Ho 应 为 : H1- 
H2<0。 


例 10.6: 分 析 数 据 集 ex.score 中 女生 的 平均 成 绩 是 否 比 男生 的 平均 成 绩 显著 更 高 (Qa=0.05) 。 


示例 代码 如 下 : 





proc ttest data=ex.score plots (shownull)=interval h0=0 sides=U; 
class gender; 
var score; 
title "One-Sided 七 test for Boys and Girls"; 
run; 








程序 中 选项 H0=0 是 系统 默认 的 ， 用 户 可 以 通过 选项 H0= 为 原 假 设 指 定 任何 值 ， 选 项 SIDES=U 表 示 原 假设 Ho 为 H1-h2<0， 因 为 按 字母 排 Female 排 在 Male 前 面 ， 所 以 原 假设 如 下 : 
Female 的 考试 成 绩 均值 -Male 的 考试 成 绩 均值 入 0 


输出 如 图 10.28 所 示 。 
One_Sided t test for Boys and Girls 
TTEST 过 程 
赤 量 - Score 
Gemier N 标准 差 标准 误差 旦 小 值 量 大 估 
Female 50 73.1200 10.5379 1.4903 | 48.0000 | 99.0000 








Male sD | 69.1200 | 10.3345 1.4615 | 41.0000 | 93.0000 
差 (1-2) 4.0000 10.4367 | 2.0873 





Gender 方法 均值 ”95% 置信 限 均 值 | 标准 差 95% 
Female 73.1200 | 70.1252 | 76.1148 | 10.5379 | 8.8026 | 13.1316 
Male 69.1200 | 66.16830 | 72.0570 | 10.3345 | 8.6327 | 12.8781 
差 (1-2 | 汇总 4.0000 0.5339 | 正 无 穷 | 10.4367 | 急 1578 | 12.1340 
差 (1- 习 | Satierihwaite | 4.0000 | 0.5339 | 正 无 穷 








方法 方差 “ 自由 度 1T 值 Pr>t 
汇总 十 三 8 | 1.92 | 0.0291 
saiierthwaie | 不 等 于 97.963 1192 | 0.0291 


方差 等 价 
方法 分 子 目 由 度 | 分母 目 由 麻 |  F 值 Pr>F 
折 考 的 下 49 49 | 1.04 | 0.8920 


图 10.28 例 10.6TTEST 过 程 报表 


可 以 注意 到 ， 差 值 (Female-Male) 均值 仍然 和 例 10.4 中 一 样 ， 但 是 95% 的 置信 区 间 已 经 不 一 样 了 ， 现 在 95% 的 置信 区 间 的 置信 上 限 为 正 无 穷 。T 值 为 1.92， 和 例 10.4 中 的 t 值 一 样 ， 因 为 不 管 是 双边 检 
验 还 是 单 边 检 验 ， 是 用 同样 的 样本 构造 出 的 统计 量 t。 当 SIDES=U 时 ，P 值 =P{Pr>t 值 }， 取 值 为 0.0291<0.05， 说 明 在 0.05 显 著 性 水 平 上 ， 应 该 拒绝 原 假设 ， 也 就 是 说 ， 女 生 考试 的 平均 成 绩 不 比 男生 低 。 


10.2.6 配对 样本 均值 [检验 


在 双 样 本 均值 [检验 中 ， 如 果 两 组 数据 不 是 相互 独立 的 ， 比 如 说 是 相同 样本 在 不 同 条 件 下 所 获得 的 数据 ， 这 种 情况 下 ， 对 两 组 数据 的 均值 差异 进行 的 假设 检验 叫做 配对 样本 均值 T 检 验 。 例 如 ， 某 学 校 在 
学 期 初 和 学 期 末 分 别 进行 了 两 次 推理 能 力 测 验 ， 两 次 成 绩 分 别 记 录 在 册 ， 和 欲 分 析 这 两 次 测验 成 绩 是 否 具 有 显著 差异 。 再 例如 ， 分 析 某 种 降 血 压 药品 的 使 用 效果 时 ， 现 有 的 数据 是 某 组 病人 在 使 用 该 种 降 血 压 
药品 前 后 的 血压 值 。 对 于 这 两 种 情况 ， 都 不 可 以 使 用 独立 双 样 本 均值 T 检 验 ， 因 为 两 样本 明显 不 符合 相互 独立 的 条 件 。 这 种 情况 下 ， 要 对 两 样本 的 均值 差异 进行 显著 性 检验 ， 应 该 使 用 配对 样本 均值 T 检 验 的 
方法 。 

需要 注意 的 是 ， 在 进行 配对 样本 的 T 检 验 时 ， 输 入 数据 集 不 能 是 统计 结果 ， 而 必须 是 一 条 一 条 的 观测 值 。 并 且 样 本 必须 同时 满足 以 下 两 个 条 件 : 

. 两 样本 具有 配对 关系 。 


. 两 样本 的 配对 均值 之 差 必 须 服从 正 态 分 布 。 当 样本 容量 足够 大 时 ， 可 以 认为 该 条 件 满足 。 


配对 样本 均值 T 检 验 的 原 假设 Ho 和 备 择 假设 H1 分 别 为 : 
Ho: Hpost 一 Hpre， Hi: Hpost 7 Hpre 


例 10.7: 数据 集 work.pressure 中 包含 了 12 名 男性 在 接受 某 种 刺激 前 后 的 心脏 收缩 压 水 平 ， 欲 分 析 这 种 刺激 方法 对 心脏 收缩 压 的 影响 。 变 量 9BPbefore 中 记录 了 在 接受 刺激 前 的 心脏 收缩 压 水 平 ， 变 量 
SBPafter 记 录 了 在 接受 刺激 后 的 心脏 收缩 讨 水 平 。 


示例 代码 如 下 : 


data work.pressure; 
input SBPbefore SBPafter Q@@; 
datalines; 
120 128 124 131 130 13] 118 127 
140 132 128 125 140 141 135 137 
126 118 130 1.32 126 129 127 135 









































run; 
proc ttest data=work.pressure; 

paired SBPbefore*SBPafter; 

title "Testing the difference before and after stimulus"; 
run; 





TTEST 过 程 中 PAIRED 语 句 指定 了 进行 配对 分 析 的 变量 SBPbefore 和 SBPafter。 在 计算 配对 的 差 值 时 是 “*” 号 左边 的 变量 减 去 “*” 号 右边 的 变量 。 


首先 输出 数据 的 分 布 情况 ， 如 图 10.29 所 示 。 
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图 10.29 ” 例 10.7 直 方 图 


在 图 10.29 中 ,包括 了 配对 差 值 的 直方 图 、 以 配对 差 值 的 均值 和 标准 差 为 均值 和 标准 差 的 正 态 分 布 图 、 核 分 布 图 、959% 置 信 区 间 图 ， 表 示 差 值 (SBPbefore-SBPafter) 基本 服从 正 态 分 布 。 


以 下 对 象 的 一 致 性 : SBPafter 和 SBPbefore 








SBPbefore 





图 10.30” 例 10.7TTEST 过 程 数 据 配 对 概况 


在 图 10.30 中 ， 左 图 展示 了 数据 的 配对 情况 ， 每 条 细 连 线 的 左 端 是 每 个 参与 者 接受 刺激 前 的 收缩 压 值 ， 右 端 是 接受 刺激 后 的 收缩 压 值 ， 粗 连 线 的 左 端 是 所 有 参与 者 接受 刺激 前 的 收缩 压 的 均值 ， 右 端 是 
受 刺激 后 的 收缩 压 平 均值 。 右 图 中 横 坐 标 代表 刺激 前 的 收缩 压 ， 纵 坐标 代表 刺激 后 的 收缩 压 ， 大 部 分 参与 者 在 接受 刺激 后 血压 上 升 了 ， 只 有 3 个 点 落 在 对 角 线 下 方 ， 表 示 仅 有 3 个 参与 者 在 接受 刺激 后 血压 下 
降 了 ， 而 且 下 降 的 幅度 也 比较 大 ， 这 使 得 差 值 的 均值 仍 落 在 对 角 线 附近 ， 如 图 10.31 所 示 。 


差分 的 Q-O 图 : SBPbefore - SBPafter 
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图 10.31 例 10.7Q-Q 图 


Q-Q 图 也 表示 了 配对 差 值 基 本 服从 正 态 分 布 ， 如 果 要 进行 更 加 严格 的 正 态 性 检验 ， 可 以 使 用 UNIVARIATE 过 程 ， 并 运用 选项 NORMAL。 


配对 样本 T 检 验 的 结果 如 图 10.32 所 示 。 


Testing the difference before and after stimulus 
TTEST 过 程 
差分 : SBPbefore - SBPafter 


N 喜人 但 | 标准 差 ， 标准 误差 ， 最 小 但 | 最 大 但 
12 | -1.8333 | 5.8284 1.6825 | -90000 | 8.0000 





均值 | 95% 置信 限 均 值 | 标准 差 | 95% 置信 限 # 
-1.8333 | -5.5365 | 1.8698 | 5.8284 | 4.1288 | 9.8958 


自由 麻 | tt 值 | Pr> 几 
11 | -1.09 | 0.2992 


图 10.32” 例 10.7TTEST 过 程 报表 


差 值 (SBPbefore-SBPafter) 的 T 值 为 -1.09， 自 由 度 为 11， 对 应 的 P 值 为 0.2992> 0.05， 所 以 T 检 验 显 示 在 显著 性 水 平 x= 0.05 下 ， 该 种 刺激 没有 显著 影响 心脏 收缩 压 。 


10.3” 非 参数 假设 检验 


在 上 面 的 均值 [检验 中 ， 我 们 分 析 的 都 是 连续 型 变量 ， 并 且 前 提 条 件 是 样本 满足 正 态 性 条 件 。 当 分 析 变 量 不 再 是 连续 型 变量 ， 而 是 定 序 变量 或 者 正 态 性 条 件 不 能 满足 时 ， 则 应 当 使 用 非 参数 方法 对 均值 和 
方差 等 统计 量 进行 假设 检验 。 在 前 面 10.2.2 节 中 ， 运 用 UNIVARIATE 过 程 对 位 置 参 数 进行 假设 检验 时 ， 系 统 除 了 给 出 了 T 检 验 的 T 值 和 P 值 ， 也 提供 了 两 种 非 参 数 检验 方法 ， 即 符号 检验 (Sign) 和 符号 秩 检验 
(Signed Rank) 的 统计 量 值 和 P 值 。 

非 参 数 检验 的 方法 有 秩 和 检验 法 和 中 位 数 评分 检验 法 。 秩 和 检验 法 的 主要 思想 是 将 原始 数据 转化 成 秩 ， 利 用 秩 构造 统计 量 来 比较 不 同样 本 的 分 布 。 在 这 里 ， 每 个 数据 值 的 秩 指 的 是 ， 原 数据 按 从 小 到 大 
的 顺序 排列 后 ， 该 数据 值 在 原 数 据 中 所 处 的 位 置 。 例 如 ， 一 个 样本 中 的 数据 值 分 别 为 2，5，...，15， 相 应 的 秩 则 如 图 10.33 所 示 。 


月 不 上 朋 笠 


这 组 数据 被 分 成 了 两 个 组 ，A 组 的 秩 和 =19 (1+2+4+5+7) ，B 组 的 秩 和 =36 (3+6+8+9+10) ， 每 组 的 秩 和 将 被 用 来 检验 两 组 数据 是 否 是 等 同 的 。 


中 位 数 评分 检验 法 的 主要 思想 是 将 原始 数据 转化 为 中 位 数 评分 ， 利 用 中 位 数 评 分 构造 统计 量 比 较 不 同样 本 的 分 布 。 当 计算 中 位 数 评 分 时 ， 如 果 数 据 值 小 于 等 于 该 组 数据 的 中 位 数 ， 中 位 数 评分 为 0; 如 果 
数据 值 大 于 该 组 数据 的 中 位 数 ， 中 位 数 评分 为 1。 例 如 ， 两 组 数据 如 图 10.34 所 示 。 
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图 10.33 ”数据 和 秩 
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图 10.34 ”数据 和 中 位 数 评分 
A 组 的 中 位 数 评分 和 =1，B 组 的 中 位 数 评分 和 =4， 每 组 的 中 位 数 评分 和 将 被 用 来 检验 两 组 数据 是 否 是 等 同 的 。 
非 参数 检验 的 原 假设 Ho 和 备 择 假设 H1 分 别 为 : 
Ho: 所 有 组 关于 位 置 、 形 状 和 范围 是 等 同 的 ， 
HI: 所 有 组 关于 位 置 、 形 状 和 范围 不 是 等 同 的 。 
SAS 中 用 于 非 参数 检验 的 过 程 步 为 NPAR1WAY 过 程 ，NPAR1WAY 过 程 的 基本 语法 如 下 : 


PROC NPAR1WAY DATA= 数 据 集 ; 
CLASS 用 于 做 比较 检验 的 分 类 变量 ，; 
VAR 分 析 的 变量 ， 
RUN; 





























其 中 : 
* CLASS 语句 只 能 指定 一 个 分 类 变量 ， 并 且 该 分 类 变量 可 以 有 任意 多 个 不 同 的 取 值 。 
* VAR 语 名 指定 需要 分 析 的 数值 型 变量 。 
当 样 本 量 很 小 ， 或 者 厚 尾 ， 或 者 偏 度 很 大 时 可 以 考虑 用 EXACT 语 和 句 ; 该 语句 会 消耗 大 量 系 统 资源 和 时 间 ， 样 本 量 很 大 时 近似 检验 也 会 给 出 不 错 的 结果 ， 因 此 ， 不 建议 使 用 EXACT 语 和 句 。 


例 10.8: 数据 集 ex.Service 中 保存 了 某 家 银行 分 行 下 的 3 个 支行 里 各 个 柜台 接待 人 员 的 服务 水 平 数 据 。 服 务 水 平分 为 5 类 : 非常 好 =5， 较 好 =4, 一 般 =3， 较 差 =2， 非 常 差 =1。 现 在 要 分 析 这 3 个 支行 的 
服务 水 平 是 否 存 在 根本 性 差异 。ex.Service 中 包含 3 个 变量 ，Store 表 示 支 行 ，ID 表 示 各 柜员 的 I|D 号 码 ，Servicelevel| 表 示 服 务 水 平 评分 ， 部 分 数据 如 图 10.35 所 示 。 


示例 代码 如 下 : 


proc nparlway data=ex.service wilcoxon median }) 
class store; 
Var servicelevel; 
title "Using NPARIWAY to Compare Service Level"; 
run; 














这 里 原 假 设 指 的 是 3 个 支行 的 服务 水 平 的 分 布 是 等 同 的 。 选 项 WILCOXON 指 定 使 用 秩 和 检验 ， 当 分 类 变量 Store 有 两 个 取 值 时 ， 将 输出 Wilcoxon 两 样本 检验 结果 ， 当 Store 的 取 值 多 于 两 个 时 ， 将 输出 
Kruskal-Wallis 检 验 结果 ; 选项 MEDIAN 指 定 使 用 中 位 数 评 分 检验 。 


输出 内 容 如 图 10.36 所 示 ， 盒 状 分 布 图 如 图 10.37 所 示 。 
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图 10.36“ 例 10.8 秩 和 检验 报表 


分 布 : Wilcoxon 评分 * servicelevel 
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图 10.37” 例 10.8 牧 和 检验 盒 状 分 布 图 


秩 和 检验 的 第 一 张 报 表 中 输出 了 3 个 支行 的 观测 数 、 实 际 的 秩 和 及 原 假设 H0 为 真 时 的 期 望 秩 和 。 从 Kruskal-Wallis 检 验 的 结果 来 看 ，P 值 =0.0246<0.05， 因 此 ， 有 足够 证 据 拒 绝 原 假设 ， 也 就 是 说 ， 在 显 
著 性 水 平 a=0.05 下 ，3 个 支行 的 服务 水 平 显 著 存 在 差异 。 


中 位 数 评 分 检验 的 报表 和 秩 和 检验 的 报表 类 似 ， 如 图 10.38 所 示 。 不 同 的 是 ， 秩 和 检验 中 用 秩 代替 了 原 数据 值 ， 中 位 数 检验 中 用 中 位 数 评分 代替 了 原 数据 值 ，P 值 =0.0259<0.05， 表 示 了 在 显著 性 水 平 
Q=0.05 下 ， 我 们 应 拒绝 原 假设 ，3 个 支行 服务 水 平 显 著 存 在 差异 。 最 后 还 输出 各 组 中 位 数 评分 的 Mosaic 图 ， 如 图 10.39 所 示 。 
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图 10.38 ” 例 10.8 中 位 数 评分 检验 报表 


以 下 对 象 的 全 面 中 位 数 之 上 和 之 上 的 频数 : servicelevel 


Pr > 卡 方 0.0259 


国 不 在 中 位 数 之 上 加 在 中 位 数 之 上 





图 10.39 ”中 位 数 评 分 Mosaic 图 


SAS 里 面 主 要 的 非 参 数 检验 方法 除了 秩 和 检验 法 和 中 位 数 评分 检验 法 之 外 ， 还 有 Van der Waerden、Savage、Siegel-Tukey、Ansari-Bradley、Klotz 和 Mood scores 等 方法 。 此 外 ， 在 PROC 
NPAR1WAY 语 句 中 使 用 选项 EDF， 系 统 还 会 通过 计算 经 验 函 数 统计 量 ， 来 检验 同一 变量 在 不 同 分 组 的 情况 下 分 布 是 否 相 同 ， 检 验方 法 包括 Kolmogorov-Smirnov 检 验 和 Cramer-von Mises 检 验 。 当 只 比较 
两 个 分 类 的 分 布 时 ， 系 统 还 会 提供 精确 的 Kolmogorov-Smirnov 检 验 ， 有 兴趣 的 读者 请 参考 SAS 帮 助 文档 深入 学 习 。 


10.4 分布 拟 合 假设 检验 


对 数据 的 分 布 进行 正 态 性 检验 在 实际 中 是 十 分 有 必要 的 ， 因 为 许多 统计 资料 的 分 析 方法 (如 T 检 验 和 F 检 验 ) 都 要 求 数据 分 布 是 正 态 分 布 或 者 近似 正 态 分 布 。 前 面 ， 已 经 介绍 了 通过 计算 统计 量 (如 峰 度 
系数 和 偏 度 系数 ) 判断 数据 是 否 近似 服从 正 态 分 布 ， 然 后 还 学 习 了 通过 作 图 法 ， 如 绘制 Q-Q 图 和 正 态 概率 图 来 判断 数据 是 否 服从 正 态 分 布 。 由 于 我 们 已 经 学 习 了 假设 检验 的 基本 原理 ， 这 里 将 介绍 第 三 种 判 
断 数 据 是 否 服从 正 态 分 布 的 方法 ， 即 使 用 UNIVARIATE 过 程 对 数据 进行 正 态 分 布 的 拟 合 优 度 检 验 ， 它 会 更 加 严格 地 判断 数据 是 否 服从 正 态 分 布 。 在 对 样本 进行 正 态 性 检验 的 时 候 ，UNIVARIATE 过 程 中 集成 


了 以 上 3 种 方法 。 
运用 UNIVARIATE 过 程 对 数据 是 否 服从 正 态 分 布 进行 检验 时 ， 假 设 检验 的 原 假设 Ho0 和 备 择 假设 H1 分 别 为 : 
Ho: 数据 服从 正 态 分 布 ， 
HI1: 数据 不 服从 正 态 分 布 。 
例 10.9: 检验 数据 集 sashelp.heart 中 变量 Systolic 是 否 服 从 正 态 分 布 。 该 数据 集中 包含 了 5209 条 观测 。 
示例 代码 如 下 : 


proc univariate data=sashelp.heart normal plot; 
var Systolic; 
histogram Systolic; 

run; 


选项 NORMAL 指 定 UNIVARIATE 过 程 对 分 布 做 正 态 性 检验 ， 如 图 10.40 所 示 。 对 于 输出 中 的 常规 描述 性 统计 量 和 直方 图 将 不 再 多 加 解释 。 


正 志 性 检验 
检验 统计 量 | p 值 


Kolmogorovw-Smimow  D D0.12243 | Pr=D <0.0100 
Cramer-von Mtses WW-Sq 15.74655 | Pr WSq | <0.0050 








AndersonDaring | ASq 93.89673 | Pr> ASq | <0.0050 


图 10.40” 例 10.9 正 态 性 检验 报表 


图 10.40 所 示 的 表 是 进行 正 态 性 检验 的 结果 ，SAS 提 供 了 3 种 检验 方法 ， 这 里 不 论 哪 一 种 检验 方法 计算 得 出 的 P 值 都 小 于 0.05， 所 以 应 该 拒绝 原 假设 ， 也 就 是 说 ， 在 显著 性 水 平 a=0.05 下 ， 变 量 Systolic 的 
分 布 显著 不 服从 正 态 分 布 。 这 里 由 于 样本 数 较 多 ， 系 统 只 输出 了 3 种 检验 方法 的 统计 量 和 P 值 。 当 样本 数 小 于 2000 时 ， 系 统 同 时 还 会 输出 Shapiro-Wikk 检 验 的 统计 量 W 和 P 值 。 


加 注意 “SAS 规定， 在 进行 正 态 性 检验 时 ， 当 样本 数 nh 三 2000 时 ， 结 果 以 Shapiro-Wilk (也 称 W 检 验 ) 为 准 ; 当 样 本 数 n>2000 时 ， 结 果 以 Kolmogorow-Smimov (也 称 D 检 验 ) 为 准 。 


UNIVARIATE 过 程 内 置 的 分 布 有 Beta、Exponential、Gamma、Normal、Lognormal、Weibull 6 种 。 其 中 ，Exponential 分 布 (指数 分 布 ) 常用 来 描述 “寿命 ”类 随机 变量 的 分 布 ， 例 如 家 电 使 用 寿 
命 、 动 植物 寿命 、 电 话 的 通话 时 间 等 ， 在 排队 论 和 可 靠 性 中 有 着 广泛 而 重要 的 应 用 。Lognormal 分 布 (对 数 正 态 分 布 ) 是 对 数 为 正 态 分 布 的 任意 随机 变量 的 概率 分 布 。 如 果 一 个 变量 可 以 看 作 是 许多 很 小 独 
立 因子 的 乘积 ， 则 这 个 变量 可 以 看 作 是 对 数 正人 态 分 布 ， 例 如 一 个 股票 投资 的 长 期 收益 率 可 以 看 作 是 每 天 收益 率 的 乘积 ， 通 过 研究 发 现 ， 该 种 长 期 收益 率 一 般 服从 对 数 正 态 分 布 。Weibull 分 布 (韦伯 分 布 ) 是 
可 靠 性 分 析 和 寿命 检验 的 理论 基础 ， 应 用 在 很 多 领域 ， 常 被 用 来 描述 风速 的 分 布 。 在 无 线 通信 技术 中 ， 相 对 于 指数 衰减 模型 ，Weibull 分 布 对 衰减 具有 更 好 的 拟 合 度 。 


例 10.10: 探索 下 列 数据 集中 的 变量 GAP 符 合 哪 种 分 布 。 


示例 代码 如 下 : 





data work.Plates; 
label Gap = "Plate Gap in cm'; 





0.746 .0.357 0..376 327 .485 1.741 0.241 0.777 0.768 0.409 














0 0 
0.252 0.512 0.534 1.656 0.742 0.378 0.714 1.121 0.597 0.231 
0.541 0.805 0.682 0.418 0.506 0.501 0.247 0.922 0.880 0.344 
0.519 1.302 0.275 0.601 0.388 0.450 0.845 0.319 0.486 0.529 
1.547 0.690 0.676 0.314 0.736 0.643 0.483 0.352 0.636 1.080 
run; 
proc univariate data=work.Plates normal; 
var Gap; 
histogram /lognormal weibul] gamma; 
run; 





本 例 中 分 别 对 变量 GAP 进 行 了 正人 态 性 检验 ， 并 拟 合 了 对 数 正 态 分 布 、Weilbull 分 布 和 Gamma 分 布 ， 同 时 还 对 拟 合 的 分 布 做 出 了 假设 检验 。 


除了 一 般 的 描述 性 统计 量 的 输出 ， 正 态 性 检验 的 输出 如 图 10.41 所 示 。 


Pr<zW 0 O001 





0.143931 | Pr>D 0.0103 
0.318809 | Pr WSqg | <0.0050 


























2.102803 Pr A-Sqg | <0.0050 


图 10.41 例 10.10 正 态 性 检验 报表 


这 里 的 原 假设 是 该 数据 服从 正 态 分 布 ， 系 统 输 出 了 4 种 检验 方法 的 P 值 ， 由 于 样本 量 比 较 小 ， 我 们 以 Shapiro-Wilk 检 验 的 结果 为 准 ， 该 P 值 远 小 于 0.05， 所 以 应 该 拒绝 原 假设 ， 即 该 分 布 显著 不 服从 正 态 
分 布 。 


图 10.42 输 出 了 变量 GAP 的 直方 图 和 3 种 分 布 的 拟 合 分 布 图 。 随 后 系统 分 别 给 出 了 这 3 种 分 布 的 假设 检验 结果 ， 如 图 10.43 所 示 。 
以 上 是 拟 合 对 数 正 态 分 布 的 参数 估计 输出 和 检验 结果 ， 尺 度 参数 估计 为 -0.584， 形 状 参数 为 0.500， 假 设 检验 的 P 值 大 于 0.05， 即 在 显著 性 水 平 a=0.05 下 ， 不 能 拒绝 原 假设 。 


同样 的 ， 图 10.44 是 Weibull 分 布 的 参数 估计 和 检验 结果 ， 尺 度 参数 Sigma 的 估计 为 0.719， 形 状 参数 C 的 估计 为 1.961，P 值 小 于 0.05， 所 以 应 拒绝 原 假 设 ， 即 在 显著 性 水 平 c=0.05 下 ， 对 数据 服从 
Weibull 分 布 的 假设 是 不 合理 的 。 


类 似 的 ， 可 以 判断 Gamma 分 布 的 假设 结果 P 值 大 于 的 0.05， 不 能 拒绝 Gamma 分 布 的 假设 。 


以 下 对 象 的 分 布 : Gap 





ve 一 一 对 数 正 态 


#0 -| 


互 分 比 


外 昌 牛 咎 名 LF 1 下 
Plate Gap In am 
[9 
一 -一 HBEETem0 Sigmaa0 5 Ze0tma-.58| 


一 -一 WeibullThems0 Cal .6 Sgmoa0.72| 
一 TH Mohsad D8 人 This 16) 


图 10.42 ” 例 10.10 直 方 图 和 拟 合 分 布 图 


其 合 对 吾 止 过 ”分布 - Eap (Platle Gap in om) 





检验 仿 计 量 p 们 
Kolmogornovw=Snmmmov Dp | DO06dd1d431 | Pr>D >0.150 | 
| CramervonMises | W-Sq 0.02823022 Pr> W-Sq | >0.500 










































































图 10.43 ” 例 10.10 中 对 数 分 布 的 假设 检验 



































标准 差 0.339248 





格 验 入 计 量 Pp 但 
Crammer on Mses WSg 0.12937281 Pr W-Sqg | 0.016 




















A 115693542 Pr A-Sqg | *<0.010 














| 0.23100 0.06889 
0.24700 | 0.15817 
Udd50 | DU.22d41 
037800 | 0.38102 











053150 0.59661 
0. 600 | 0.849355 
1.10050 | 1.10040 
1 .54700 | 1.25842 





1.7a4100 1.S56691 


图 10.44 ” 例 10.10 中 Weibull 分 布 的 假设 检验 


10.5 本章 小 结 


统计 推断 就 是 由 样本 推断 总 体 ， 它 包括 两 个 基本 内 容 : 参数 估计 和 假设 检验 。 参 数 估计 间 题 分 为 点 估计 和 区 间 估 计 。 点 估计 是 适当 地 选择 一 个 统计 量 作为 未 知 参数 的 估计 。 由 于 点 估计 不 能 反映 估计 的 
精度 ， 于 是 又 引入 了 区 间 估 计 。 在 参数 估计 部 分 ， 本 章 还 讲述 了 如 何 运 用 SAS 的 MEANS 过 程 得 到 参数 的 点 估计 和 区 间 估 计 。 


从 本 章 第 2 节 开始 ， 讨 论 了 假设 检验 问题 。 有 关 总 体 分 布 的 未 知 参 数 或 未 知 分 布 形式 的 种 种 论断 叫 统计 假设 ， 人 们 根据 样本 所 提供 的 信息 对 所 考虑 的 假设 做 出 接受 或 者 拒绝 的 决策 ， 假 设 检 验 就 是 做 出 这 
一 决策 的 过 程 。 一 般 地 ， 人 们 总 是 对 原 假设 H0 做 出 接受 或 者 拒绝 的 决策 。 但 是 接受 一 个 假设 并 不 意味 着 确信 它 是 真 的 ， 它 只 意味 着 决定 采取 某 种 策略 ; 拒绝 一 个 假设 也 不 意味 着 它 是 假 的 ， 这 也 仅仅 是 表示 
采取 另 一 种 不 同 的 策略 。 由 于 做 出 判断 的 依据 是 一 个 样本 ， 并 且 样 本 是 随机 的 ， 因 此 不 论 是 哪 种 情况 ， 都 人 存在 选择 错误 的 可 能 性 。 故 而 ， 在 实际 问题 中 ， 如 何 选取 原 假设 和 备 择 假设 需 根 据 实际 情况 慎重 判 
断 。 对 此 ， 本 章 介绍 了 如 何 使 用 TTEST 过 程 对 单 样本 均值 、 两 样本 均值 及 配对 样本 均值 进行 T 检 验 ; 当 样 本 不 满足 T 检 验 的 假设 条 件 时 ， 还 介绍 了 如 何 使 用 NPAR1WAY 过 程 对 均值 进行 假设 检验 。 最 后 ， 讨 论 
了 如 何 使 用 UNIVARIATE 过 程 对 数据 的 分 布 形 态 进 行 假设 检验 。 


第 11 章 ”方差 分 析 


在 实际 应 用 中 ， 常 常 需要 判断 几 组 观察 到 的 数据 或 者 处 理 的 结果 是 否 存 在 显著 差异 。 比 如 ， 想 要 了 解 不 同 地 区 的 信用 卡 用 户 在 月 均 消 费 水 平 上 是 否 存在 差异 ， 就 是 多 组 数据 是 否 存 在 差异 的 示例 。 至 于 
不 同 处 理 的 结果 是 否 存在 差异 的 示例 也 有 很 多 ， 例 如 ， 考 察 几 种 用 于 缓解 手术 后 疼痛 的 药品 ， 它 们 之 间 的 治疗 效果 即 药 效 持续 的 平均 时 间 是 否 存 在 差异 ， 实 际 上 考察 的 就 是 不 同 的 处 理 (将 药品 作用 于 患 
者 ) 其 结果 是 否 存 在 差异 。 


若 上 述 的 信用 卡 月 均 消 费 水 平 或 治疗 效果 存在 差异 ， 那 么 这 种 差异 是 统计 显著 的 吗 ? 也 就 是 说 ， 这 种 差异 是 某 一 个 或 几 个 因素 作用 的 结果 吗 ? 例如 是 由 于 地 区 差异 或 不 同 的 药物 引起 的 吗 ? 还 是 纯粹 随 
机 误差 (如 随机 抽样 过 程 ) 的 体现 呢 ? 


本 章 介 绍 的 方差 分 析 (Analysis of Variance，ANOVA) 就 是 用 于 检验 两 组 或 者 两 组 以 上 样本 的 均值 是 否 具备 显著 性 差异 的 一 种 数理 统计 方法 。 


11.1 “方差 分 析 的 基本 原理 


在 方差 分 析 中 ， 我 们 把 要 考察 其 均值 是 否 存在 显著 差异 的 指标 变量 称 为 响应 变量 ， 对 响应 变量 取 值 有 影响 的 其 他 变量 称 为 因素 。 例 如 ， 信 用 卡 消费 水 平和 治疗 效果 为 响应 变量 ， 地 区 和 药品 则 为 因素 。 
在 方差 分 析 中 ， 因 素 的 取 值 应 为 离散 型 的 ， 其 不 同 的 取 值 称 为 水 平 。 例 如 ， 每 一 个 具体 地 区 或 者 每 一 种 药品 都 对 应 着 一 个 水 平 。 根 据 因素 的 个 数 ， 方 差分 析 可 以 分 为 单 因 素 方差 分 析 和 多 因素 方差 分 析 。 


11.1.1 “方差 分 析 的 模型 


为 了 更 好 地 解释 方差 分 析 的 模型 ， 首 先 来 看 看 单 因 素 的 情形 。 考 虑 如 下 示例 : 现 有 4 种 用 于 缓解 术 后 疼痛 的 药品 1、2、3 和 4， 为 了 研究 它们 的 治疗 效果 是 否 存 在 显著 差异 ， 对 每 一 种 药品 都 进行 了 4 次 试 
验 。 试 验 结果 如 表 11.1 所 示 。 


表 11.1 试验 结果 
ET ETTTITITT 


如 果 我 们 把 每 一 种 药品 的 治疗 效果 看 成 一 个 总 体 ， 本 例 要 解决 的 问题 就 可 以 归结 为 检验 4 个 总 体 的 均值 是 否 相等 的 问题 。 记 4 种 药品 对 应 的 总 体 的 均值 为 Hi (i=1，2，3，4) ， 那 么 ， 该 检验 问题 的 原 假 





| 
(yp) 
. 


设 Ho 和 备 选 假设 H1 分 别 如 下 : 

Ho: Rh1=h2=n3=H4 

HI1: hi，h2，H3，HM4 不 全 相等 

假设 Yi 为 第 种 药品 的 第 次 试验 〈i，j=1，2，3，4) 结果 ， 例 如 Y12=6，Y21=5。 对 于 每 一 次 固定 的 试验 ， 药 效 的 持续 时 间 可 以 看 成 是 由 该 药品 的 平均 持续 时 间 和 个 体 差异 导致 药 效 的 持续 时 间 差异 这 
两 部 分 组 成 的 ， 即 

第 j 组 药品 的 第 i 个 疗效 = 药品 j 的 疗效 + 服药 个 体 间 的 差异 

将 上 述 式 子 以 符号 的 形式 表示 如 下 : 

Y= te (1) 

sj 表示 第 /个 水 平 下 第 | 个 观测 与 该 水 平均 信之 间 的 差异 ， 也 称 误差 项 (Error Term) 。 在 实际 问题 中 ， 误 差 项 表示 除 考虑 因素 之 外 的 其 他 因素 或 者 其 他 不 可 观测 的 随机 因素 (如 天 气 等 ) 的 影响 。 在 方差 
分 析 中 ， 一 般 假 定 不 同 水 平 下 的 sj 服从 均值 为 0、 相 同方 差 的 正 态 分 布 ， 即 sj~N (0，o?) ， 且 彼此 间 相 互 独立 。 上 述 模型 (1) 也 是 单 因 素 方差 分 析 的 一 般 模 型 。 事 实 上 ， 为 了 突出 水 平 间 的 作用 ， 我 们 党 
常 将 模型 (1) 改写 为 : 

Yi=h+Yiji+eij (2) 


其 中 ，H 表 示 因 素 的 均值 ，T 表 示 该 因素 下 第 j 个 水 平 的 效应 (Effect of Treatment j) ， 记 该 等 式 表示 的 模型 为 模型 (2) 。 例 如 ， 在 上 述 药 效 的 例子 中 ，H 为 所 考察 的 4 种 药品 作用 于 患者 的 药 效 平均 持 
续 时 间 ，Tj 为 第 种 药品 和 h 之 间 的 差异 ， 即 该 药品 的 效应 。 


从 上 面 方差 分 析 模 型 可 以 看 出 ， 方 差分 析 本 质 上 是 一 个 线性 问题 ， 对 于 该 问题 ， 理 论 上 ， 我 们 可 以 利用 最 小 二 乘法 对 模型 进行 拟 合 ， 得 出 具体 Hj 值 或 5j， 进 而 判定 水 平 间 是 否 具 有 显著 差异 。 但 是 ， 在 实 
际 计算 中 ， 一 般 不 会 直接 对 模型 进行 拟 合 ， 而 是 追溯 响应 变量 变化 的 来 源 ， 即 其 方差 的 来 源 ， 来 判定 均值 间 是 否 有 显著 性 差异 。 
11.1.2 方差 分 析 的 基本 思想 

响应 变量 的 方差 既 可 以 是 因素 不 同 水 平 间 的 差异 ， 也 可 以 是 抽样 过 程 本 身 。 前 者 可 以 由 模型 中 的 因素 解释 ， 后 者 则 对 应 了 模型 中 的 误差 项 部 分 。 


在 方差 分 析 中 ， 我 们 将 所 有 样本 响应 变量 的 方差 称 为 全 部 平方 和 (Total Sum of Squares，SST) ， 公 式 如 下 : 
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这 里 Yi 是 捕 个 水 平和 下 的 第 i 个 观测 ，? 是 所 有 抽样 的 均值 。 在 上 述 药品 试验 的 例子 中 ，7 为 4 种 药品 16 次 试验 的 结果 均值 。 


我 们 将 由 因素 不 同 水 平 间 差异 引起 的 、 可 以 由 模型 中 因素 解释 的 部 分 方差 称 为 模型 平方 和 (Model Sum of Squares，SSM) ; 将 由 抽样 过 程 本 身 引起 的 部 分 方差 称 为 误差 平方 和 (Error Sum of 


Squares，SSE) 。 二 者 计算 公式 分 别 如 下 : 


其 中 ，Y 为 水 平 A 下 所 有 样本 的 平均 值 ，n 为 该 水 平 下 样本 观测 数目 。 在 上 述 例子 中 ，Y 为 第 种 药品 所 进行 的 4 次 试验 结果 的 平均 值 ，n 为 4。 公 式 中 (Yi 习 ?描述 的 是 水 平 A 下 抽样 均值 和 所 有 抽样 均 
信之 间 的 差异 ，nj 可 以 看 该 水 平 对 应 的 权重 。 


上 述 3 个 统计 量 SST、SSM 和 SSsE 三 者 的 关系 如 下 : 
SST=SSV+SST 


在 响应 变量 方差 中 ， 如 果 由 因素 不 同 水 平 引起 的 差异 占 显著 比例 ， 那 么 可 以 推断 该 因素 对 响应 变量 的 差异 具有 显著 作用 ; 反之 ， 如 果 抽 样 过 程 本 身 引 起 的 差异 占 显著 比例 ， 那 么 可 以 推断 该 因素 对 响应 
变量 的 差异 不 具有 显著 作用 。 在 方差 分 析 中 ， 衡 量 上 述 两 部 分 比例 大 小 的 统计 量 为 F 统 计量， 其 计算 方法 具体 如 下 : 


SS9u/(s—-1) 


Se TU = 


在 上 述 公式 中 ，s 是 水 平 的 个 数 ，n 为 所 有 水 平 下 的 样本 容量 的 总 和 ， (s-1) 为 模型 的 自由 度 ， (n-s) 为 误差 自由 度 的 自由 度 。F 比 值 中 的 分 子 和 分 母 分 别称 为 模型 均 方 (Mean Square 
Model，MSM) 和 误差 均 方 (Mean Square Error，MSE) 。 


此 外 ， 在 多 元 统计 分 析 中 ， 我 们 称 SSM 和 SST 的 比值 为 R 方 ， 符 号 为 R*， (也 称 决定 系数 ，Coefficient of Determination) ， 即 





dd. 
MN 


该 统计 量 用 于 衡量 模型 能 解释 响应 变量 方差 比例 的 大 小 ， 其 取 值 介 于 0 与 1 之 间 ， 其 值 越 大 意味 着 模型 能 解释 的 比例 越 大 ， 即 模型 对 数据 的 拟 合 得 越 好 ， 当 其 值 趋 近 于 0 时 ， 模 型 几乎 不 能 解释 响应 变量 
方差 。 


在 实际 计算 中 ， 方 差分 析 的 步骤 如 下 : 

1) 建立 原 假设 与 备 选 假 设 。 原 假设 为 s 个 水 平 对 应 的 均值 相等 ， 备 选 假 设 为 s 个 水 平 对 应 的 均值 不 全 相等 。 

2) 给 定 显著 性 水 平 x， 在 SAs 方 差分 析 的 过 程 步 中 ， 该 值 默认 为 0.05。 

3) 根据 计算 统计 量 的 值 Fo。 

4) 根据 模型 的 自由 度 (s-1) 以 及 误差 自由 度 的 自由 度 (n-s) ， 可 以 确定 一 个 F 分 布 。 由 该 F 分 布 的 概率 密度 遂 数 和 Fo， 可 以 进一步 计算 出 在 该 F 分 布 中 大 于 Fo 的 p 值 ，p=Pr(X>Fo) 。 例 如 ， 如 图 
11.1 所 示 的 是 模型 自由 度 为 3、 误 差 自由 度 为 12 的 F 分 布 概率 密度 图 ， 从 图 中 可 以 看 出 对 应 Fo=4 的 p 值 为 0.035 (曲线 下 位 于 直线 Fo=4 右 方 尾部 部 分 的 面积 为 0.035) 。 


5) 若 p 值 小 于 给 定 的 显著 性 水 平 c， 那 么 可 以 拒绝 原 假设 ， 认 为 个 水 平 对 应 的 均值 不 全 相等 ; 反之 ， 则 接受 原 假 设 ， 认 为 s 个 水 平 对 应 的 均值 相等 。 


Fo = 和 4 








me 


面积 为 0.035 | 


0 I 2 3 二 5 6 
x 


图 11.1 F (3，12) 概率 密度 图 
11.1.3 方差 分 析 的 假设 


回顾 模型 11.1.1 节 中 的 模型 (2) 中 方差 分 析 的 假设 条 件 为 : sj~N (0， 02) ， si 相互 独立 。 残 差 本 质 上 来 源 于 抽样 样本 。 因 此 ， 该 假设 条 件 等 价 于 : 
. 每 组 观测 服从 正 态 分 布 。 

. 每 组 观测 的 方差 相等 ， 即 方差 齐 性 。 

* 样本 数据 集中 观测 间 是 独立 的 。 


上 述 3 个 假设 前 提 条 件 中 ， 观 测 间 相互 独立 意味 着 样本 数据 集中 某 一 个 观测 所 包含 的 信息 与 其 他 观测 均 无 关 。 一 般 地 ， 首 先 ， 在 进行 方差 分 析 试 验 的 初始 阶段 就 应 该 验证 观测 间 是 否 独 立 ， 其次， 在 实际 
应 用 中 ， 往 往 并 不 要 求 观测 严格 服从 正 态 分 布 ， 如 果 观 测 近似 服从 正 态 分 布 ( 当 观测 数目 足够 多 的 时 候 ， 一 般 认 为 观测 的 分 布 是 服从 正 态 的 ) ， 就 认为 其 满足 方差 分 析 的 正 态 性 假设 ; 最 后 ,方差 齐 性 可 以 
通过 假设 检验 来 判断 ， 有 关 这 方面 的 内 容 ， 我 们 会 结合 SAs 的 过 程 步 一 并 介绍 。 


11.2 单 因 素 试 验 的 方差 分 析 

在 方差 分 析 中 ， 最 简单 的 情形 为 单 因 素 ， 熟 练 掌握 单 因 素 的 方差 分 析 对 理解 、 解 决 多 因素 方差 问题 很 有 帮助 。 本 节 介绍 如 何 使 用 SAs 进 行 单 因 素 的 方差 分 析 。 
11.2.1 TTEST 过 程 、ANOVA 过 程 与 GLM 过 程 的 区 别 

在 SAS 中 ,， 方差 分 析 可 以 通过 PROC TTEST、PROC ANOVA 与 PROC GLM 实 现 。 具 体 采用 哪 一 个 过 程 步 ， 需 要 考虑 如 下 情景 : 


“ 仅 有 一 个 因素 且 该 因素 仅 包含 两 个 水 平 。 在 这 种 情形 下 ， 采 用 上 述 3 个 过 程 步 得 到 的 结果 一 致 。 


* 仅 有 一 个 因素 ， 但 该 因素 包含 的 水 平 个 数 为 3 个 或 者 3 个 以 上 。 此 时 车 使 用 PROC TTEST， 则 需要 进行 多 次 的 两 两 比较 ， 这 会 大 大 增加 犯 第 一 类 错误 的 概率 。 因 此 ， 在 这 种 情形 下 ， 不 宜 使 用 PROC 
TTEST， 可 以 考虑 采用 PROC ANOVA 和 PROC GLM。 


. 因素 的 个 数 为 两 个 或 者 两 个 以 上 ， 可 以 使 用 PROC ANOVA 或 者 PROC GLM。 二 者 的 区 别 是 PROC ANOVA 是 专门 针对 均衡 数据 (Balanced Data) 的 试验 而 设计 的 。 所 谓 的 均衡 数据 指 的 是 每 一 个 因素 及 
水 平 的 组 合 的 样本 容量 大 小 一 致 。 由 于 考虑 了 数据 的 均衡 性 ，PROC ANOVA 在 处 理 均 衡 试验 时 一 般 会 比 PROC GLM 更 快 、 占 用 的 存储 空间 更 小 。 此 外 ，PROC GLM 提 供 了 更 多 的 图 像 输出 选项 供用 户 使 用 。 
PROC TIEST 在 上 一 章 有 所 介绍 ， 本 章 将 不 重复 。 


11.2.2 ”使 用 ANOVA 过 程 进 行 方差 分 析 


前 面 提 到 的 药品 疗效 的 例子 就 是 一 个 单 因 素 多 水 平 的 情形 ， 且 该 例子 是 一 个 均衡 数据 。 根 据 前 面 的 讨论 得 知 ， 可 以 采用 PROC ANOVA 或 者 PROC GLM 来 进行 分 析 。 这 里 介绍 如 何 利用 PROC ANOVA 


实现 分 析 。 
PROC ANOVA 的 语法 如 下 : 


PROC ANOVA< 选 项 >; 





(Ba 
MODEL 响 应 变量 = 因素 ， 


























. PROC ANOVA 语 句 中 常见 的 选项 有 DATA=、OUTSTAT= 和 PLOTS。 其 中 ， 选 项 DATA= 指 定 输入 数据 集 ， 黑 认 值 为 最 近 一 次 使 用 过 的 数据 集 
自由 度 、 下 统计 量 等 ， 选 项 PLOTS 要 求 ODS 图 像 选 项 是 打开 的 。 


; 选项 OUTSTAT= 指 定 输出 数据 集 ， 该 输出 数据 集 包 名 


只 


.CLASS 语句 需 在 MODEL 语 名 前 ， 在 CLASS 语 匈 中， 用 户 指定 用 于 方差 分 析 模 型 的 分 类 变量 ， 常 见 的 有 性 别 、 组 别 等 。 
. 在 MODEL 语 名 中 ， 用 户 指定 用 于 方差 分 析 的 因素 与 响应 变量 。 


` PROC ANOVA 会 对 BY 语句 中 的 每 一 个 变量 做 独立 的 分 析 ， 使 用 BY 语句 的 前 提 是 输入 数据 集 已 经 按照 BY 语句 中 的 变量 升序 排列 ， 如 果 BY 语 名 中 的 变量 个 数 不 止 一 个 ， 将 只 有 最 后 一 个 变量 起 作用 。 
如 果 输 入 数据 集 未 按照 BY 语句 中 的 变量 升序 排列 ， 用 户 可 以 使 用 PROCSORT 对 数据 集 进行 预先 处 理 。 


MEANS 语 句 计算 与 因素 对 应 的 响应 变量 的 均值 。 一 个 PROC ANOVA 可 以 包含 多 个 MEANS 语 句 ， 所 有 的 MEANS 语 和 句 的 位 置 必 须 在 MODEL 语 句 之 后 。 


例 11.2: 数据 集 ex.ReliefTime 中 包含 了 表 11.1 中 的 信息 。 假 设 方差 分 析 的 3 个 假设 条 件 满足 : 即 病 人 术 后 疼痛 延缓 时 间 相 互 独立 ， 试 验 中 4 组 观测 时 间 在 分 布 上 符合 正 态 分 布 且 方差 相等 。 现 在 要 使 用 
PROC ANOVA 分 析 数 据 集 ex.ReliefTime 进 行 分 析 。 


示例 代码 如 下 : 


data ex.ReliefTime; 
input Medicine $ Hours Q@@; 























rn 

proc anova data = ex.ReliefTime; 
class Medicine; 
model Hours = Medicine; 

run; 








这 里 的 原 假设 为 数据 中 4 种 药品 在 延 组 手术 疼痛 时 间 上 均值 相等 。 提 交 上 述 代 码 ， 得 到 输出 结果 ， 共 两 部 分 ， 第 一 部 分 是 汇总 信息 ， 如 图 11.2 所 示 。 


二 部 分 是 方差 分 析 部 分 ， 结 果 如 图 11.3 所 示 。 


在 本 例 中 ， 因 素 药 品 的 水 平 共有 4 个 ， 因 此 对 应 模型 的 自由 度 为 3;， 校 正 合计 的 自由 度 等 于 数据 中 观测 数 减 1， 因 此 ， 其 自由 度 为 15; 误差 自由 度 为 校正 合计 自由 度 与 模型 自由 度 之 差 。 上 述 代码 的 显著 
性 水 平 c 为 默认 值 0.05，F 检 验 具 有 显著 性 : p 值 为 0.0029 小 于 a 值 ， 因 此 拒绝 原 假设 。 也 就 是 说 ,我们 认为 上 述 4 种 药品 在 延缓 术 后 疼痛 的 时 间 上 是 有 显著 性 差异 的 。 








图 11.2 例 11.2ANOVA 过 程 输出 汇总 信息 


源 自由 度 平方 和 均 方 F 值 Pr >F 


模型 3 | 64 18750000 | 21 39583333 | 8 35 |0. 0029 


民 善 12 | 30. 75000000 | 2. 56250000 
校正 合计 15 | 94. 93750000 | 


R 方 要 导 系 数 根 MISE Hours 均 慎 


0.676103 31. 620947 1. 600781 5.062500 























源 自由 度 Anova SS 均 方 F 值 Pr >F 
Nedicine 3 64.18750000 21.39583333 | 8. 35 | 0. 0029 





图 11.3 ” 例 11.2 方 差分 析 报 表 


在 ODS 图 形 选 项 打开 的 情况 下 ， 那 么 PROC ANOVA 还 会 自动 生成 一 个 盒 状 图 。 例 如 ， 提 交 下 面 代 码 ， 除 了 生成 和 例 11.2 中 一 样 的 结果 外 ， 还 生成 了 一 个 盒 状 图 。 





ods graphics on; 
roc anova data = ex.ReliefTime; 
class Medicine; 

model Hours = Medicine; 





run; 
ods graphics off; 





盒 状 图 如 图 11.4 所 示 。 








以 下 对 象 的 分 布 : Hours 


F 日. 95 
Prob >F 0.0029 


Hours 


Naedicine 
图 11.4 例 11.2 输 出 使 状 图 


从 箱 图 上 可 以 直观 地 看 出 : 《组 与 其 他 组 在 延缓 术 后 疼痛 时 间 上 有 明显 差异 。 


11.2.3 ”使 用 GLM 过 程 进行 方差 分 析 


在 上 一 个 例子 中 ， 我 们 假定 方差 分 析 的 3 个 假设 条 件 均 满足 。 实 际 中 ， 是 需要 验证 这 3 个 条 件 是 否 满足 的 。 重 新 考虑 例 11.2 中 的 问题 ， 假 设 每 个 病人 服药 后 延缓 疼痛 的 时 间 相 互 独立 是 一 个 合理 的 假设 ， 
现在 仅 需 要 验证 其 余 两 个 条 件 是 否 满足 。PROC GLM 中 的 选项 提供 了 验证 其 他 两 个 条 件 的 工具 。PROC GLM 不 仅 可 以 用 来 做 方差 分 析 ， 还 可 以 用 来 进行 多 元 回归 分 析 、 协 方差 分 析 、 多 项 式 回 归 等 。 但 这 里 
仅 介绍 和 方差 分 析 相关 的 部 分 内 容 ， 其 他 功能 在 后 续 章 节 根 据 需要 再 介绍 。 值 得 一 提 的 是 ，PROC GLM 中 方差 分 析 部 分 的 语法 和 PROC ANOVA 语 法 有 很 多 相同 之 处 ， 对 于 相同 的 之 处 ， 将 简略 带 过 


PROC GLM 的 一 般 形式 如 下 : 


PROC GILM< 选 项 >; 
CLASS < 选项 >; 
MODEL 响应 变量 = 因素 ; 
LSMEANS; 
MEANS< 选 项 >; 


























RUN; 


其 中 : 
" PROC GLM 中 常见 的 选项 有 ， 选 项 ALPHA= 指 定 显著 性 水 平 x 的 值 ， 其 默认 值 为 0.05; 选项 DATA= 指 定 用 来 分 析 的 数据 ，OUTSTAT= 指 定 输出 数据 集 ，PLOTS= 用 来 控制 输出 的 图 形 (前 提 是 ODS 图 


形 选 项 打开 ) 。 
* CLASS 用 来 指定 分 类 变量 信息 。 


. MODEL 语 名 指定 分 析 的 因素 与 响应 变量 。 


. LSMEANS 语 多 计算 指定 变量 的 最 小 二 乘 均值 (Least Squares Means) 。 用 户 可 以 指定 一 个 或 者 多 个 变量 ， 需 要 注意 的 是 ， 这 些 变 量 都 必须 在 之 前 的 MODEL 语句 中 出 现 过 ， 具 体 用 法 将 在 后 面 介 绍 。 


MEANS 语句 用 来 计算 因素 及 其 对 应 的 响应 变量 的 算术 平均 数 和 方差 。MEANS 语 名 中 常见 的 选项 为 HOVTEST， 该 选项 使 用 LEVENE 检 验 判 断 各 组 方差 是 否 相 等 (这 里 原 假 设 为 方差 相 


等 ) ，LEVENE 检 验 是 选项 HOVTEST 的 默认 值 。 
需要 指出 的 是 ，PROC GLM 是 一 个 支持 交互 性 的 过 程 步 : PROC GLM 会 一 直 在 后 人 台 运 行 ， 直 至 遇 到 下 一 个 过 程 步 、 数 据 步 或 者 QUIT 语 句 。 
例 11.3: 使 用 PROC GLM 对 数据 集 ex.ReliefTime 进 行 方差 分 析 假 设 的 检验 ， 并 进行 方差 分 析 。 


示例 代码 如 下 : 


ods graphics on; 

proc glm data = ex.ReliefTime plots (only) = diagnostics; 
class Medicine; 
model Hours = Medicine; 
means Medicine / hovtest; 

run; 

quit; 

ods graphics off; 























上 述 代码 中 PROC GLM 语 句 中 的 PLOTS 选 项 生成 了 拟 合 诊断 图 ， 如 图 11.5 所 示 。 借 助 与 Q-Q 图 和 残 差 图 (分 别 位 于 下 图 的 第 1 列 的 第 2、3 行 ) ， 我 们 可 以 判断 数据 的 正 态 性 是 否 满足 。 从 Q-Q 图 上 可 以 
看 出 ， 多 数 观测 位 于 直线 的 两 侧 ; 此 外 ， 从 残 差 图 可 以 看 出 ， 数 据 有 唯一 的 最 高 峰 、 且 基本 呈 对 称 分 布 。 根 据 这 两 点 ， 可 以 认为 原始 数据 呈 近 似 正 态 分 布 。 


以 下 对 象 的 拟 合 诊断 : Hours 





现 镜 18 
可 上 甬 | 
课 关 自由 座 12 
MSE FA 
RR 有 0. 6761 
调整 恨 方 0.5 旺 1 





.00.408 0.00.40.8 
比例 小 于 


图 11.5” 例 11.3 拟 合 诊 断 图 


此 外 ， 代 码 中 语句 “means Medicine/hovtest; ”用 于 检验 方差 是 否 相等 ， 其 输出 结果 如 图 11.6 所 示 (位 于 整个 PROC GLM 输 出 结果 的 末尾 ) 。 


6LMH 过 程 


“Hours” 的 Levene 方差 齐 性 格 验 
组 均值 的 平方 离 差 ANOVA 


adicine 3 | 54. 7930 18.2643 | 3. 12 | 0.0661 
误差 12 | 70. 1875 5.8490 

















图 11.6” 例 11.3 方 差 齐 性 检验 报表 


由 于 p 值 0.0661 大 于 默认 值 0.05， 因 此 我 们 接受 原 假设 ， 即 认为 方差 是 相等 的 。 至 此 ， 方 差分 析 的 其 余 两 个 假设 条 件 验证 完毕 。 整 个 模型 的 输出 结果 如 图 11.7 所 示 。 


6LI 过 得 


源 “自由 度 ”平方 和 均 方 |F 值 ( Pr >F 






3 | 64 18750000 | 21 39583333 | 8.35 [0 0029 
误 闫 12 | 90.75000000 | 2 56250000 
校正 合计 15 | 94. 93750000 






































R 方 | 变异 系数 根 MSE Hours 均 值 








0.676103 |31.62037 1.600781 | 5.062500 
源 自由 度 | 1 型 SS 均 方 IF 值 | Pr>F 
册 ed icine 3 | G4. 187650000 a | B. 365 | 0. 0029 





课 自由 度 111 型 SS 均 方 |F 什 | Pr>F 





Medicine 3 64. 187560000 | 21. 39683333 | 8. 35 | 0. 0029 


图 11.7 例 11.3 方 差分 析 报 表 


从 模型 中 可 以 看 出 ，p 值 为 0.0029， 小 于 0.05， 因 此 ， 我 们 拒绝 原 假 设 ， 即 认为 4 种 药品 在 延缓 术 后 疼痛 的 时 间 上 存在 显著 性 差异 。 这 与 我 们 在 例 11.2 中 使 用 PROC ANOVA 分 析 的 结果 一 致 。 不 过 ， 注 
这 里 出 现 了 两 个 类 似 的 表格 : I 型 SS (Sum of square， 即 平方 和 ) 与 瑟 型 S3y， 这 是 因为 计算 平方 和 时 采用 的 方法 不 一 样 ， 在 单 因素 的 情况 下 ， 二 者 是 相等 的 。 除 了 工 型 SS 和 于 型 Ss 外 ，PROC GLM 
还 定义 了 工 型 SS 和 IV 型 S$， 默 认 情况 下 ，PROC GLM 仅 输出 工 型 SS 和 亚 型 Sy。 在 实际 中 ， 我 们 一 般 以 下 型 SS 为 主要 参考 依据 。 有 关 4 种 不 同 SS 的 区 别 ， 可 以 参考 SAs 帮 助 文档 ， 这 里 就 不 展开 讨论 。 


11.3” 显著 因素 下 的 水 平 间 差异 检验 


在 前 面 已 经 介绍 了 如 何 判断 显著 因素 。 本 节 考 虑 在 显著 因素 确定 的 情况 下 ， 如 何 进 行 水 平 间 差 异性 的 分 析 。 
11.3.1 LSMEANS 语 句 与 MEANS 语 句 的 区 别 


在 11.2 节 中 ， 介 绍 了 PROC GLM 中 MEANS 语 句 的 使 用 方法 ， 而 且 ， 在 介绍 语法 的 时 候 还 提 及 了 LSMEANS 语 句 。MEANS 语 句 和 LSMEANS 语 句 在 对 均值 的 计算 方法 上 存在 一 定 的 差别 。 


假设 有 两 种 新 药 A 和 B， 在 两 个 不 同 的 医院 进行 了 临床 试验 ， 数 据 收集 如 表 11.2 所 示 。 


表 11.2 临床 试验 数据 


医院 甲 cx $5,6 


根据 表 11.2 可 知 ， 药 A 在 两 所 医院 的 均值 为 24/5=4.8， 药 B 在 两 所 医院 的 均值 为 26/5=5.2。LSMEANS 语 句 在 进行 计算 时 使 用 的 方法 有 所 不 同 ， 


具体 如 下 : 首先 计算 药 人 A 在 医院 甲 的 均值 为 3， 其 次 计算 
药 A 在 医院 乙 的 均值 为 7.5， 最 后 二 者 取 平 均值 得 到 LSMEANS 为 5.25。 因 此 ， 可 以 得 到 如 表 11.3 所 示 的 结果 。 


表 11.3 MEANS 语句 与 LMEANS 语 名 计算 的 均值 


从 MEANS 的 角度 看 ， 药 B 比 药 A 要 好 (假设 值 越 大 代表 效果 越 好 ) ， 但 是 从 LSMEANSs 的 角度 看 ， 二 者 无 差异 。 一 般 情 况 下 ， 若 数据 是 均衡 的 ， 二 者 的 计算 结果 就 是 相同 ;但 如 果 数 据 不 均衡 ， 二 者 的 结 


果 也 会 不 一 样 。 从 使 用 的 角度 看 ， 若 试验 是 不 均衡 的 ， 则 应 该 使 用 LSMEANS。 此 外 ，LSMEANS 也 用 于 某 个 因素 下 水 平 间 差 异 的 检验 。 例 如 ,假设 在 方差 分 析 后 ,我 们 找 出 了 某 一 个 因素 具有 显著 作用 ， 现 
欲 在 分 析 该 因素 的 两 两 水 平 间 的 差异 ， 这 时 候 就 可 以 用 LSMEANS。 


Dy 


\ 


11.3.2 ”利用 LSMEANS 语 句 进 行 水 平 差异 分 析 


语句 LSMEANS 的 使 用 语法 如 下 : 





LSMEANS 因素 < 选项 >， 





在 方差 分 析 中 ， 常 见 的 选项 有 两 个 : PDIFF 与 SLICE， 前 者 用 于 水 平 间 的 两 两 比较 ， 后 者 用 于 多 因素 分 析 ， 当 因素 间 有 相互 作用 时 ， 可 固定 一 个 因素 的 水 平 ， 进 而 分 析 另 外 一 个 因素 的 变化 。 有 关 SLICE 
选项 的 用 法 会 在 下 一 节 双 因素 试验 中 介绍 。 需 要 指出 的 是 ， 与 MEANS 语 句 类 似 ， 一 个 PROC GLM 中 可 以 指定 多 个 LSMEANS 语 句 。 


PDIFF 的 常见 选项 如 表 11.4 所 示 。 


表 11.4 ”选项 PDIFF 和 ADJUST 取 值 


PDIFF 类 型 默认 ADJUST 
没有 指定 1 
ALL TUREY 
CONTROL DUNNETT 


控制 选项 误差 的 方法 大 体 上 有 两 种 : 一 种 是 控制 两 两 比较 的 误差 (Comparisonwise Error Rate，CER) ， 另 一 种 是 控制 整个 试验 的 误差 (Experimentwise Error Rate，EER) 。 如 果 选 择 的 是 前 者 


(CER) ， 那 么 可 以 使 用 语句 LSMEANS/PDIFF=ALL ADJUST=T; 若是 后 者 ， 则 可 以 使 用 语句 LSMEANS/VPDIFF=ALL ADJUST=TUKEY 或 者 LSMEANS/PDIFF=CONTROL ( 控制 
组 ”) ADJUST=DUNNETT。 取 值 TUKEY 适 用 于 仪 考虑 水 平 间 两 两 比较 的 情形 。 


例 11.4: 在 例 11.3 中 ， 我 们 发 现 因素 Medicine 的 确 是 一 个 显著 因素 。 该 因素 共有 4 个 水 平 : A、B、C 和 D,， 现 欲 分 析 两 两 比较 药 的 疗效 。 


示例 代码 如 下 : 


ods graphics on; 

proc glm data = ex.ReliefTime } 
class Medicine; 
model Hours = Medicine; 
lsmeans Medicine/pdiff = All }; 

工 UL7 




















提交 上 述 代码 ， 在 结果 查看 窗口 中 ， 首 先 可 以 看 到 每 个 组 的 LSMEANS 信 息 ， 如 图 11.8 所 示 。 


紧 接着 是 LSMEANS 部 分 主要 的 输出 结果 ， 如 图 11.9 所 示 。 一 个 4x4 阶 矩阵 ， 记 为 Mj， 这 里 的 j=1，2，…，4。 下 标 值 j，j 对 应 的 信息 由 上 一 个 表格 中 的 列 LSMEAN 号 确定 。 原 假设 为 和 j 的 LSMEANS 


值 相等 (无 显著 性 差别 ) ， 显 著 性 水 平 仍然 为 默认 值 0.05。 


和 | 
加 | 
EE 
| 区 
加 
| 国有 me | si 


GLM 过 程 
最 小 二 乘 均 值 
多 重 比较 














下 
9. 
| 


图 11.8 例 11.4 输 出 的 LSMEANS 信 息 





效 库 “Medicine” 的 最 小 二 乘 均 值 
Pr > |t| (针对 HO) - LSWMean(iD)=LSMean( 
因 弯 量 : 






3 4 

0.0086 | 0 9700 
2 ”0.0127| 09091 
3 | 00086 00127 0 0040 
司 


0.9700| 0. 9091 


图 11.9 ” 例 11.4 变 量 MEDICINE 水平 间 差异 分 析 报 表 























由 于 M12=0.9960>0.05， 所 以 我 们 接受 原 假设 ， 认 为 二 者 间 无 显著 性 差别 。 同 理 ， 由 于 M43=0.0040<0.05， 拒 绝 原 假设 ， 认 为 二 者 有 显著 性 差别 。 类 似 地 可 以 对 矩阵 中 的 其 他 元 素 值 进行 分 析 。 


语句 LSMEANS 中 的 选项 pdiff=All 要 求 ODS 选项 是 打开 的 ， 其 作用 是 生成 如 图 11.10 所 示 的 置信 区 间 图 。 
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图 11.10 ” 例 11.4 不 同 水 平 间 均 值 差 异 的 置信 区 间 图 


在 图 11.10 中 ， 斜 向 上 的 对 角 线 (虚线 ) 是 组 间 差 异 为 0 的 参考 线 。 冬 向 下 的 实 线 代表 了 CLASS 变 量 下 两 个 不 同 水 平 间 的 均值 。 本 例 中 ，CLASS 变 量 下 共有 4 个 不 同 水 平 ， 可 以 组 成 6 对 不 同 水 平 组 合 。 每 
一 对 水 平 组 合 下 的 两 个 水 平 之 间 的 均值 差异 的 置信 区 间 由 图 中 和 斜 向 下 的 实 线 表示 。 例 如 ， 直 线 L 对 应 的 是 水 平 D 和 水 平 C 均 值 差异 的 置信 区 间 (通过 水 平 D 的 垂直 线 与 通过 水 平 C 的 水 平 线 这 两 条 直线 的 交点 位 
于 L 上 ) 。 直 线 [ 与 斜 向 上 的 虚线 没有 交点 ， 即 0 不 在 该 置信 区 间 内 。 据 此 ， 我 们 可 以 推断 水 平 D 和 水 平 C 的 均值 存在 显著 差异 。 简 而 言 之 ， 如 果 斜 向 下 的 实 线 与 参考 线 不 相交 ， 就 表示 对 应 于 该 实 线 的 两 个 水 
平 的 均值 是 有 显著 差异 的 ; 反之 ， 若 实 线 与 参考 线 相 交 ， 则 该 实 线 对 应 的 两 水 平均 值 没有 显著 差异 。 


11.4 双 因 素 试验 的 方差 分 析 
在 实际 应 用 中 ， 更 多 出 现 的 是 包含 多 因素 的 试验 和 处 理 。 多 因素 试验 与 双 因素 试验 背后 的 基本 思想 是 一 致 的 。 下 面 以 双 因素 试验 为 例 介绍 如 何 对 其 进行 方差 分 析 。 


11.4.1 双 因 素 试验 概述 


与 单 因素 方差 分 析 不 同 ， 在 双 因 素 方差 分 析 中 因素 间 可 能 会 有 交互 作用 。 假 设 有 两 个 因素 A 和 B， 因 素 A 和 B 没 有 交互 作用 指 的 是 A 的 水 平 值 不 取决 于 B 的 水 平 值 ， 反 之 亦 然 。 对 于 有 交互 作用 的 因素 ,我 
们 不 可 孤立 地 看 待 这 些 因素 。 对 于 双 因 素 的 情形 ， 一 般 从 图 像 上 看 ， 没 有 交互 作用 的 因素 水 平 图 表现 为 两 条 不 相交 的 线段 ， 而 有 交互 作用 的 因素 水 平 图 为 两 相交 的 线段 。 如 图 11.11 所 示 是 在 研究 年 龄 和 性 别 
对 身高 是 否 有 显著 作用 过 程 中 ， 因 素 年 龄 与 性 别 之 间 的 交互 作用 。 从 图 像 上 看 ， 两 曲线 没有 明显 相交 ， 据 此 可 以 推测 二 者 间 不 存在 相互 作用 。 当 然 ， 要 判定 是 否 存在 或 者 不 存在 交互 作用 ， 还 需要 根据 相应 
的 统计 量 来 分 析 。 
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图 11.11 因素 年 龄 与 性 别 交互 图 


如 果 因 素 A 和 B 间 不 存在 交互 作用 ， 那 么 可 以 对 因素 A 和 B 各 自 进行 独立 分 析 ， 在 后 续 的 分 析 中 去 除 不 显著 的 因素 。 如 果 方 差分 析 的 结果 显示 因素 A 和 B 间 人 存在 交互 作用 ， 这 时 候 要 对 数据 进行 进一步 的 分 


析 ， 具体 包括 如 下 几 点 : 
` 在 因素 A 的 某 个 水 平 下 ， 因 素 B 对 响应 变量 的 作用 。 
* 在 因素 B 的 某 个 水 平 下 ， 因 素 A 对 响应 变量 的 作用 。 
. 在 所 有 因素 (A，B) 的 组 合 中 ， 哪 两 组 的 差异 最 大 。 
需要 指出 的 是 ， 多 因素 的 情况 与 双 因 素 处 理 方法 类 似 ， 只 不 过 分 析 的 因素 会 增多 。 表 11.5 从 模型 因素 角度 对 比 了 双 因 素 与 三 因素 。 表 中 带 “*” 号 的 表示 因素 间 的 相互 作用 。 


表 11.5 双 因 素 与 三 因素 比较 


因素 方差 分 析 模 型 中 需要 考虑 的 因素 
A,B A*B, A, B 
A By 6 NM A A BG hy By BE 


11.4.2 ”利用 GLM 过 程 对 不 均衡 数据 进行 方差 分 析 


数据 集 sashelp.class 包 含 了 学 生 的 姓名 、 性 别 与 身高 ， 如 图 11.12 所 示 。 现 在 分 析 年 龄 与 性 别 是 否 是 影响 体重 的 显著 因素 。 该 问题 属于 不 均衡 数据 集 的 方差 分 析 ， 可 以 使 用 PROC GLM 实 现 ， 具 体 见 下 


例 。 
例 11.5: 假设 上 述 数 据 集 学 生 数 据 符合 方差 分 析 模 型 的 假设 条 件 。 在 显著 性 水 平 为 0.05 的 条 件 下 ,分 析 数 据 sashelp.class 中 影响 体重 的 显著 因素 ， 并 对 显著 因素 中 的 水 平 (或 水 平 组 合 ) 差 
析 。 代 码 如 下 : 


proc means data = sashelp.class N mean } 
class age sex; 
var height; 
run; 
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首先 ， 通 过 一 些 描述 性 统计 量 (观测 数目 与 均值 ) 对 数据 有 一 个 初步 的 了 解 ， 如 图 11.13 所 示 。 
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图 11.12 ”数据 集 学 生 数 据 


分 析 杰 有 量 : Weieht 体重 
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图 11.13 ” 例 11.5 中 描述 性 统计 量 报表 


从 上 述 结 果 中 可 以 看 出 ， 这 不 是 一 个 均衡 的 数据 。 因 此 ， 可 采用 PROC GLM 进 行 方差 分 析 。 代 码 如 下 : 


proc glm data = sashelp.class; 
Class Age Sex; 
model Weight = Age Sex Age*Sex; 
run; 


输出 结果 中 模型 部 分 的 结果 如 图 11.14 所 示 。 


在 本 模型 中 ， 不 同 的 年 龄 与 性 别 组 合共 有 11 对 ， 因 此 模型 的 自由 度 为 11-1=10; 数据 集 共 有 19 条 观测 ， 故 校正 合计 对 应 的 自由 度 为 19-1=18， 误 差 的 自由 度 为 二 者 值 差 。 第 1 个 表格 显示 模型 的 F 值 为 
4.14，Pp 值 为 0.0278， 小 于 默认 羡 值 0.05， 据 此 ， 可 以 初步 判断 因素 对 体重 是 有 显著 作用 的 ， 至 于 是 哪个 因素 还 需要 具体 分 析 。 


源 Age*Sex 的 作用 是 判断 二 者 间 是 否 有 交互 作用 。 从 图 11.14 中 的 最 后 一 个 表格 可 以 看 出 ， 源 Age*Sex 的 p 值 为 0.5487 (大 于 显著 性 水 平 0.05) ， 据 此 可 以 认为 因素 Age 和 Sex 没 有 相互 作用 。 因 此 ， 可 以 
独立 考虑 上 述 两 个 因素 。 此 外 ， 根 据 最 后 一 个 表格 中 源 Age 和 源 Sex 对 应 的 p 值 ， 可 以 判断 出 因素 Age 是 体重 的 一 个 显著 因素 ,而 Sex 不 是 。 


本 例 中 的 显著 水 平 只 有 一 个 Age。 为 了 进一步 分 析 Age 的 水 平 间 差异 性 ， 提 交 下 面 的 代码 : 








lsmeans Age/pdiff=all aqjust = tukeyy run; 


输出 结果 如 图 11.15 所 示 。 








/ 平方 和 均 方 F 值 | Pr>F 
10 | 7824. 361842 782. 436184 | 4. 14| 0. 0278 | 
188. 921875 / 









8 | 1811. 375000 





18 9335. [36842 







根 SE Weight 均值 
”100. 0263 
































源 自由 度 。 1 型 ss 均 方 F 值 Pr>F 
Age 5 | 6343. 870175 1268. 774035 | 6. 72 | 0. 0096 
| Se ] 2. 880980 | 4 57 | 0.0651 
0. 82 | 0. 5487 




































































































自由 诬 111 型 55 坞 方 F 值 | PryF 
5 | 5685. 524074 | 1137. 104815 | 6. 02 | 0.0133 
1| 812. 851974 | 812.851974 | 4. 30 |0.0718 


2672 | 0. 82 | se | 








a Gli.610687 | 154. 


图 11.14 例 11.5 方 差分 析 报 表 





LI 过 程 
__，，， 最 小 一 乘 均 什 
甸 重 比较 的 调整 : Tukey-Kramer 































































































Age Weight LSMEAN LSMEAN 号 
1 | | 
12 2 
13 3 
14 101 875000 4 
| 1 117. 375000 5 | 
16 | Non-est 6 












包 丰县 ， pe 











1 0. 3030 0 5698 0.1117 | 0.0193 

3 030 | 0. 9907 0. 8271 | 0. 1375 

3 0.5698 | 0. 9907 | 0. 6864 | 0.1310 
] 


0.1117 | 0. 8271 | 0. 686 











0 0193 | 0. 1375 0.1310 0. 8383 


mn 





图 11.15 “变量 AGE 水 平 间 差 异 分 析 报 表 


由 于 年 龄 在 16 岁 的 学 生 只 有 一 个 (只 有 男生 ) ， 因 此 这 一 类 无 法 与 其 他 组 进行 比较 ， 从 而 导致 方 阵 中 出 现 缺 失 值 。 从 该 矩阵 中 可 以 判断 出 水 平 间 的 两 两 差异 。 此 外 ，Diff 的 置信 区 间 图 如 图 11.16 所 示 。 
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图 11.16 例 11.5 变 量 AGE 水 平 间 均值 差异 的 置信 区 间 图 


11.4.3 ”有 交互 作用 因素 的 方差 分 析 


在 例 11.5 中 ,介绍 了 双 因 素 分 析 ， 在 该 例 中 因素 间 并 没有 相互 作用 。 本 节 通 过 一 个 例子 来 解释 在 因素 间 相 互 作用 的 情况 下 如 何 进行 方差 分 析 。 


例 11.6: 数据 集 ex.fruiti 记 录 了 在 不 同 湿度 和 温度 下 某 种 植物 的 产 出 。 这 是 一 个 双 因 素 方差 分 析 的 情形 。 假 设 方差 分 析 的 假设 条 件 满足 ， 在 显著 性 水 平 0.05 的 前 提 下 ， 欲 分 析 不 同 温度 、 不 同 湿度 下 产 出 
是 否 有 显著 差异 ， 以 及 温度 和 湿度 的 交互 是 否 显 著 差 异 ， 如 果 交 互 有 差异 ,分 析 在 湿度 一 定 的 情况 下 ， 温 度 对 产 出 的 影响 。 


示例 代码 如 下 : 





data ex.fruit; 
input humidity $ temperature $ output lbs Q@@; 
datalines; 














Al Bl 58.2 Al Bl 52.6 
AL B2 56.2 AL B2 41.2 
Al B3 65.3 Al B3 60 
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7 
run; 


首先 ， 进 行 交 互 性 分 析 ， 代 码 如 下 : 








proc gilm data = ex.fruit; 

class humidity temperature; 

model output tons = humidity temperature 
humidity*temperature; 
工 UL7 








模型 部 分 的 输出 结果 如 图 11.17 所 示 。 
从 结果 中 可 以 看 出 : 因素 humidity 和 因素 temperature 间 存在 交互 作用 ; 因素 humidity 是 一 个 显著 因素 ; 因素 temperature 不 是 一 个 显著 因素 。 


下 面 在 humidity 的 每 个 水 平 下 分 析 因 素 temperature 的 作用 ， 代 码 如 下 : 


lsmeans humidity*temperature/slice=humidity; 
run’; 


提交 上 述 代 码 ， 首 先 输出 的 是 每 一 组 humidity*temperature 的 最 小 二 乘 均值 ， 如 图 11.18 所 示 。 


人 人 间 过 程 


艾 方 FF 值 ( Pr>F 





模型 8 | 1477. 611111 | 184. 701389 | 9. 28 | 0. 0015 


| 


滩 鞠 9 179. 060000 | 19. 895566 
校正 合计 17 | 1656. 671111 








R 方 | 变异 系数 | 根 MSE output tons 均值 
0. 891916 | 8. 256683 | 4 460443 54 02222 


源 自由 度 。 1 型 SS 均 方 F 值 | Pr>F 
| humidity | 2 ] 197. 601111 | 98. T606686 | 4.96 | 0. 03B6y | 
3.66 | 0.0726 
| humidity*temperature ] 4 1138. 408889 | 284. 602222 | 14. 30 | 0. 0006 





temperature 2 141. 701111 | 70. 85055 


新 自由 度 111 型 SS 均 方 | F 值 ， Pr>F 





4.96 | 0. 0353 
3.66 0.0126 


a 


humidity 2 197.501111 
temperature 2 141.701111 








humidity*temperature 4 1138. 408889 284. 602222 14.30 0.0006 


图 11.17 例 11.6 关 于 交互 性 作用 的 方差 分 析 报 表 


GLM 过 程 
最 小 二 颖 均值 








humidity temperature output tons LSMEAN 


x | 王 
Et | 二 
加 到 
































IE 














El 


S| 





SB 
3 


图 11.18 ” 例 11.6 中 最 小 二 乘 均 值 报表 


第 2 个 表格 展现 的 是 在 每 个 湿度 的 水 平 下 温度 对 产 出 的 显著 性 检验 ， 如 图 11.19 所 示 。 





output_tons 的 按 
| humidity | 自由 座 平方 和 均 方 F 值 Pr>F 
al | 2| “ 194 703333 97.351667 4 89| 0.0365 | 
A2 2 ”41.343333 20.671667 | 1.04 0.3927 
a3 | 2 1044 063333 522 031667 26 24 0 0002 





| 





图 11.19 例 11.6 中 不 同 湿度 水 平 下 温度 对 产 出 的 显著 性 检验 报表 


从 该 表格 可 以 看 出 ， 在 湿度 为 A1 和 A3 的 情况 下 ， 温 度 对 产 出 是 有 显著 作用 的 ; 在 湿度 为 A2 的 情形 下 ， 温 度 对 产 出 无 显著 作用 。 


11.5 ”本章 小 结 


方差 分 析 是 一 种 常见 的 统计 模型 ， 用 于 检验 样本 间 均 值 是 否 相等 。 方 差分 析 适 用 于 处 理 因 素 类 型 为 分 类 变量 、 响 应 变量 类 型 为 连续 的 情形 。 根 据 因 素 个 数 ， 方 差分 析 可 以 分 为 单 因素 方差 分 析 与 多 因素 


方差 分 析 。 在 多 因素 方差 分 析 中 ， 要 特别 注意 判断 因素 间 是 否 存 在 交互 作用 。 此 外 ， 在 实际 应 用 中 ， 可 以 通过 设计 合理 的 试验 ， 在 尽 可 能 排除 外 部 因素 的 干扰 后 ， 再 对 试验 数据 进行 方差 分 析 ， 这 样 结果 会 


更 加 准确 。 


第 12 章 主 成 分 分 析 与 因子 分 析 


本 章 首先 介绍 主 成 分 分 析 (Principal Component Analysis，PCA) ， 然 后 简单 介绍 因子 分 析 (Factor Analysis) 。 因 子 分 析 可 以 看 成 是 主 成 分 分 析 的 推广 ， 其 目的 是 在 众多 变量 中 ， 找 出 若干 隐藏 在 


这 些 变量 背后 的 “公共 信息 ”。 


12.1 主 成 分 分 析 概 述 


本 节 主 要 介绍 主 成 分 分 析 的 理论 知识 ， 包 含 主 成 分 分 析 基 本 思想 ， 主 成 分 的 几何 与 代数 意义 ， 主 成 分 的 定义 、 计 算 与 确定 。 


12.1.1 主 成 分 分 析 的 基本 思想 


1. 主 成 分 分 析 的 基本 思想 


在 实际 应 用 中 ， 为 了 能 够 完整 地 收集 到 所 关心 事物 或 问题 的 信息 ， 往 往 要 从 多 个 角度 对 多 个 变量 的 值 进行 采集 ， 


以 进行 分 析 ， 少 则 数 个 ， 多 则 几 十 上 百 个 ， 甚 至 更 多 。 变 量 越 多 ， 对 事物 特征 的 反映 就 


越 完整 、 准 确 ， 但 同时 也 给 数据 的 分 析 带 来 一 定 的 困难 : 大 量 描述 同一 事物 特征 的 变量 数据 量 加 在 一 起 可 能 造成 信息 严重 重复 ， 甚 至 会 掩盖 事物 内 部 的 真正 规律 。 主 成 分 分 析 的 作用 就 是 从 现 有 的 众多 变量 
中 ， 得 出 若干 个 起 主导 作用 的 综合 指标 (通俗 地 说 ， 这 些 综合 指标 就 是 主 成 分 ) ， 并 且 可 以 判定 这 些 综合 指标 也 就 是 主 成 分 对 所 研究 的 事物 或 问题 所 起 作用 的 大 小 。 通 过 对 主 成 分 的 研究 ， 既 可 抓 住 原始 变 


量 所 表达 的 重要 信息 ， 又 减少 了 需要 天 心 的 变量 数量 ， 使 得 实际 的 应 用 和 操作 得 到 简化 。 


2. 主 成 分 分 析 的 几何 与 代数 意义 


为 了 便于 读者 理解 ， 下 面 从 几何 的 角度 直观 地 介绍 主 成 分 分 析 。 假 设 某 数据 包含 N 个 观测 ， 每 条 观测 包含 了 两 个 变量 X1，X2 的 取 值 ， 我 们 可 以 将 这 些 观 测 在 X1，X2 组 成 的 坐标 空间 中 用 图 描 出 来 ， 如 图 


12.1 所 示 。 





图 12.1 观测 在 空间 的 分 布 


从 图 12.1 可 以 看 出 ， 观 测 分 布 于 由 X1，X2 组 成 的 坐标 空间 内 的 一 个 椭 贺 中。 众所周知， 椭圆 有 一 个 长 轴 和 一 个 短 轴 ， 长 轴 和 短 轴 之 间 互 相 季 直 。 例 如 ， 将 图 12.1 中 的 坐标 轴 X1 与 X2 旋 转 即 可 得 到 椭圆 的 


长 轴 、 短 轴 Y1 与 Y2。 沿 短 轴 方 向 数据 变化 的 范围 较 小 ， 沿 长 轴 方 向 数据 变化 的 范围 较 大 。 假 设 短 轴 的 长 度 很 小 ， 那 么 只 需 考 虑 数据 在 长 轴 方 向 的 变化 ， 就 可 以 知道 数据 集 的 大 致 变化 范围 。 例 如 ， 在 图 12.1 


中 ， 


可 以 仅 考虑 数据 在 长 轴 Y1 上 的 变化 来 近似 原始 数据 集 的 变化 ， 以 达到 简化 分 析 的 目的 。 
当 变 量 为 3 个 时 ， 所 处 理 的 对 象 即 为 三 维 空间 上 的 椭 球 。 与 上 述 二 维 空 间 的 情况 类 似 ， 我 们 可 以 找 出 对 应 椭 球 的 主轴 ， 利 用 长 度 最 长 的 几 个 主轴 来 代替 原始 变量 进行 研究 。 
总 之 ， 从 几何 角度 看 ， 可 将 原始 变量 进行 旋转 ， 使 得 旋转 后 的 新 向 量 : 
` 两 两 之 间 重 直 。 
“ 数据 在 菜 些 新 变量 上 的 变化 范围 较 大 ， 在 其 余 新 变量 上 的 波动 范围 较 小 。 
当 变 量 个 数 大 于 3 个 时 ， 无 法 从 直观 上 想象 ， 这 时 候 就 需要 借助 于 代数 方法 了 。 


首先 ， 从 代数 角度 看 ， 向 量 选 择 可 以 通过 对 原始 变量 的 线性 变换 来 实现 。 所 谓 线性 变换 ， 简 单 地 讲 就 是 对 原始 变量 进行 加 、 减 、 比 例 的 放 缩 等 计算 ， 以 生成 新 的 变量 。 例 如 ， 图 12.1 中 ，Y1 与 Y2 可 以 通 


过 以 下 X1 与 X2 的 线性 变换 得 到 : 


区 过 
本 (1) 
站 二 < 二 本 om 


将 上 述 系统 以 矩阵 的 形式 表示 出 来 就 是 : 
Y=AX 


其 中 从 人 er 及- 


其 次 ， 几 何 上 的 相互 垂直 表现 为 代数 ， 即 为 变量 间 是 线性 无 关 的 (需要 注意 的 是 线性 无 关 并 不 意味 着 垂直 ) ， 即 一 个 变量 无 法 通过 其 余 变 量 的 线性 组 合 得 到 。 统 计 学 上 ， 变 量 X1 与 X? 之 间 的 相关 性 可 以 
通过 协 方 差 来 衡量 ， 记 号 为 COV (X1，X2) ， 具 体 公式 如 下 : 


COV (XI1，X2) =[ (Xi-E (XI) ) (X2-E (X2) ) ] 


如 果 X1 与 X2 线 性 无 关 ， 那么 COV (X1，X2) =COV (X2，X1) =0。 当 X1 与 X2 为 同一 个 变量 时 ，COV (X1，X2) 为 该 变量 的 方差 ， 即 Var (X1) 或 Var (X2) 。 将 变量 两 两 的 协 方差 以 矩阵 的 形式 表示 
出 来 ， 即 为 协 方差 矩阵 ， 记 号 为 >。 考 虑 变量 个 数 为 两 个 的 情形 ， 它 们 的 协 方差 矩 咱 如 下 : 
Var(A,) CY 和 人 
NE ) EC) 
综合 上 述 3 个 方面 ， 主 成 分 分 析 的 目的 是 找 出 一 个 矩阵 A， 使 得 对 X= (X1，X2，…，Xp) 进行 线性 变换 Y=AX 后 ， 得 到 的 新 的 向 量 Y= (Y1，Y2，…，Yp) 的 协 方 差 矩阵 为 对 角 线 矩阵 ， 且 该 协 方差 矩阵 
具有 如 下 性 质 : 
. 在 非 对 角 线 位 置 的 取 值 为 0。 


“ 在 对 角 线 位 置 的 取 值 非 0， 且 前 几 个 对 角 线 位 置 的 值 较 大 、 后 几 个 对 角 线 位 置 的 取 值 相对 较 小 。 
12.1.2 ” 主 成 分 的 定义 、 计 算 与 确定 
1. 主 成 分 分 析 的 定义 与 计算 

现在 来 看 看 有 关 主 成 分 的 严格 定义 。 假 设 某 待 分 析 的 数据 中 每 个 完整 的 观测 有 p 个 变量 ,分 别 用 X1，X2，.…，Xp 表 示 ， 这 个 p 个 变量 构成 了 p 维 的 随机 向 量 X= (X1，X2，…，Xp) 。 每 一 个 观测 对 应 值 是 
随机 变量 X 的 一 个 取 值 。》 为 随机 向 量 X 的 协 方差 阵 。 那 么 根据 高 等 代数 的 理论 可 知 ， 一 定 存在 正 交 和 矩阵 UJ， 使 得 

U'>_U=A 

其 中 人 为 对 角 和 矩阵 diag (和 A1, 入 2,...， 入 p) ， 并 且 入 1> 入 2>.…> 入 p>0。 

这 时 对 X 进 行 如 下 线性 变换 ， 使 得 : 

Y=U'X 


可 以 得 到 新 的 随机 变量 Y= (Y1，Y2，.…，Yp) ， 其 方差 阵 为 U'>U= 八 ， 随 机 变量 Y 的 各 个 分 量 Y1，Y2，.…，Yp 是 互 不 相关 的 ， 并 且 Yi 的 方差 为 NN。 此 时 我 们 称 Y; 为 (关于 随机 向 量 X) 的 第 | 个 主 成 分 
(i=1, 2, ..., p) 。 


熟悉 高 等 代数 的 读者 很 容易 可 以 由 U >U=A 看 出 ， 和 为 > 的 特征 值 。 在 本 章 提 及 特征 值 时 ， 即 指 此 处 的 Ai。 
我 们 称 数 值 一 为 主 成 分 Yi 的 贡献 率 。 前 k 个 分 量 Y1，Y2，…，Yl 的 累积 贡献 率 为 '… 一 该 值 也 称 累积 解释 变异 的 比例 。 


2. 主 成 分 个 数 的 确定 
主 成 分 个 数 的 确定 是 主 成 分 分 析 中 关键 的 一 步 。 一 般 来 说 ， 确 定 主 成 分 个 数 的 方法 有 : 特征 值 大 于 1 准则 、 陡 坡 检验 法 (Scree Test) 以 及 累积 解释 变异 的 比例 法 。 下 面具 体 介绍 这 3 种 方法 。 


在 主 成 分 分 析 中 ， 用 于 确定 主 成 分 的 最 常见 方法 就 是 特征 值 大 于 1 准则 ， 该 准则 又 称 Kaiser 准 则 。 根 据 该 准则 ， 在 主 成 分 分 析 中 ， 我 们 仅 保 留 特征 值 大 于 1 的 主 成 分 。 该 准则 背后 的 思想 为 ， 每 个 原始 数 
据 中 的 每 一 个 变量 “贡献 ”了 至 少 1 个 单位 的 变异 ， 当 主 成 分 对 应 的 特征 值 大 于 1 时 ， 该 主 成 分 包含 2 个 或 者 2 个 以 上 原始 变量 的 变异 信息 ， 选 择 这 样 的 主 成 分 能 够 以 较 少 个 数 的 主 成 份 保留 原始 变量 的 绝 大 多 


数 信息 。 


陡坡 检验 法 是 将 主 成 分 与 其 对 应 的 特征 值 在 二 维 坐 标 轴 中 显示 出 来 ， 这 种 图 形 一 般 称 为 陡坡 图 (Scree Plot) 。 理 想 状 态 下 的 陡坡 图 先是 一 段 陡峭 的 曲线 ， 然 后 是 一 段 较为 平坦 的 曲线 。 在 利用 陡坡 图 
判断 保留 主 成 分 个 数 时 ， 仅 需 保留 曲线 在 平坦 趋势 的 第 一 个 点 之 前 的 主 成 分 即 可 。 从 图 12.2 中 可 以 看 出 ， 在 主 成 分 3 之 后 曲线 变 得 平坦 。 因 此 ， 仅 需 保 留 3 之 前 的 因子 ， 即 主 成 分 1 和 2。 











FE 
| 


特征 住 





主 成 分 


图 12.2 ”陡坡 图 


考虑 累积 解释 变异 的 比例 也 是 常见 的 判定 主 成 分 个 数 的 方法 之 一 。 一 般 来 说 ， 第 一 主 成 分 能 解释 变异 的 比例 最 大 ， 其 次 为 第 二 、 第 三 ， 以 此 类 推 。 该 方法 的 原理 是 在 当前 所 有 的 主 成 分 囚 积 变异 比例 达 


到 一 定 程度 时 ， 我 们 就 认为 当前 的 主 成 分 已 经 包含 原始 变量 中 足够 多 的 信息 ， 可 以 用 来 代替 原始 数据 中 的 所 有 变量 。 通 常 来 说 ， 囚 积 变 异 的 比例 应 该 要 达到 70% 以 上 。 


在 实际 应 用 中 ， 应 该 具体 问题 具体 分 析 ， 确 定 主 成 分 个 数 没 有 通用 的 准则 ， 建 议 读 者 综合 上 述 3 种 方法 以 及 研究 问题 的 背景 来 判断 主 成 分 的 个 数 。 


12.1.3 ” 主 成 分 分 析 难 点 探讨 


顾名思义 ， 主 成 分 分 析 就 是 寻找 主 成 分 ， 但 是 ， 


不 能 单纯 为 了 简化 数据 、 便 于 解释 ， 就 在 没有 考虑 问题 背景 与 数据 本 身 结构 特点 的 情况 下 盲目 地 进行 主 成 分 分 析 。 下 面 探讨 下 主 成 分 分 析 过 程 中 的 一 些 
难点 。 


难点 一 : 协 方 差 矩阵 与 相关 系数 矩阵 
在 主 成 分 分 析 的 实际 计算 过 程 中 ， 有 两 个 矩阵 起 着 至 关 重 要 的 作用 ， 它 们 是 相关 系数 和 矩阵 与 协 方差 矩 咱 。 使 用 不 同 的 矩阵 计算 出 来 的 结果 差异 有 可 能 会 很 大 。 因 此 ， 有 必要 了 解 二 者 之 间 的 区 别 。 
首先 回顾 一 下 相关 系数 的 概念 。 在 11.4 节 介绍 双 因 素 分析 时 ， 提 到 了 两 个 因素 之 间 可 能 相关 。 衡 量 两 因素 (或 者 变量 ) X1 与 X2 间 相关 的 统计 量 为 皮尔 逊 相关 系数 (Pearson Correlation 


Coefficient) 。 将 变量 


两 两 间 的 相关 系数 以 矩阵 的 形式 表示 就 形成 了 相关 系数 矩阵 (Correlation Matrix) 。 与 相关 系数 类 似 ， 统 计 学 上 还 有 一 个 统计 量 用 于 衡量 两 个 变量 间 相 关 性 ， 称 为 协 方差 系数 
(Covariance Coefficient) 。 与 协 方 差 系 数 对 应 的 矩阵 称 为 协 方 差 矩 阵 (Covariance Matrix) 。 二 者 的 计算 公式 如 下 : 


随机 变量 乞 与 ,的 协 方差 COV(X, , 系 ) = E[ (X, - E(X,))(X, - E(X,))) 
ea ee EI (XE(X,))(X, — E(X,)) 
陆 | 量 A 3 A HY 相 天 条 Dy Pxix, 二 A 
aii D(A) 


从 计算 公式 中 可 以 看 出 ， 二 者 的 区 别 在 于 是 否 对 变量 进行 了 标准 化 (标准 化 的 结果 是 变量 的 方差 变 为 1) : 将 原始 变量 标准 化 后 得 到 的 协 方差 矩阵 即 为 相关 系数 矩阵 。 相 关系 数 矩 阵 削 弱 了 单个 指标 的 方 
差 、 保 留 了 指标 间 的 相关 性 。 因 此 ， 我 们 可 以 结合 数据 本 身 的 特点 来 选择 是 从 协 方差 矩阵 出 发 还 是 相关 系数 矩阵 出 发 计算 主 成 分 。 


一 般 而 言 ， 对 度量 单位 不 同 的 变量 或 者 是 取 值 范围 差异 非常 大 的 变量 ， 不 应 直接 从 协 方差 矩阵 出 发 分 析 ， 而 应 该 考虑 标准 化 后 的 数据 ， 即 相关 系数 矩阵 。 例 如 ， 在 对 某 上 市 公司 的 数据 进行 分 析 时 发 
现 ， 其 销售 额 的 取 值 在 几 亿 到 几 十 亿 、 利 润 从 1 干 万 到 几 干 万 不 等 、 市 盈 率 在 几 百 间 波 动 、 每 股 净 利润 在 几 块 钱 左 右 ， 不 同 的 变量 取 值 差别 相当 大 。 这 时 ， 如 果 不 进 行 标准 化 、 直 接 对 数据 进行 主 成 分 分 析 ， 
就 会 太 现 销售 额 在 主 成 分 分 析 中 起 到 了 “统治 ”作用 ， 而 其 他 指标 很 难 在 分 析 中 体现 出 来 。 总 之 ， 如 果 要 避免 数据 中 单个 变量 对 主 成 分 分 析 产 生 负 面 影响 ， 对 此 ， 可 以 考虑 相关 系数 矩阵 。 


反之 ， 如 果 要 突出 单个 指标 在 分 析 中 的 作用 ， 可 以 考虑 从 协 方差 矩阵 出 发 进行 计算 。 具 体 地 说 ， 如 果 原 始 数据 中 的 指标 在 分 析 中 所 占 的 权重 不 一 样 ， 则 可 以 考虑 从 协 方差 矩阵 出 发 进行 主 成 分 的 计算 。 
例如 ， 为 了 了 解 影响 课堂 教学 质量 的 不 同 因素 的 重要 性 ， 通 过 随机 问卷 调查 的 方式 对 某 高 一 年 级 的 学 生 进 行 了 调查 ， 问 卷 调查 的 内 容 包 含 对 以 下 几 个 指标 进行 打分 ， 分 数 越 高 代表 该 指标 越 重要 : 课 前 教师 
布置 预习 任务 ; 课堂 提问 ; 课堂 互动 ; 使 用 多 媒体 教学 ; 课堂 练习 ; 课堂 中 分 组 讨论 ; 教师 对 课程 的 教学 要 求 、 语 言 鼓励 性 。 现 假设 上 述 指标 间 的 重要 性 不 一 样 ， 这 种 情形 下 ， 就 可 以 考虑 从 协 方 差 矩 阵 出 
发 进行 主 成 分 分 析 。 


总 之 ， 进 行 主 成 分 分 析 前 ， 应 充分 考虑 问题 的 背景 与 数据 的 结构 特征 。 建 议 在 实际 工作 中 ， 分 别 从 不 同 的 角度 出 发 求解 主 成 分 并 研究 结果 的 差异 ， 找 出 产生 明显 差异 的 原因 ， 以 确定 哪个 方法 更 可 信 。 
难点 二 : 主 成 分 个 数 的 确定 


在 某 些 情形 下 ， 主 成 分 个 数 的 确定 也 可 能 是 分 析 过 程 的 难点 之 一 。 根 据 特 征 根 大 于 1 准则 ， 我 们 应 保留 所 有 特征 值 大 于 1 的 主 成 分 ， 但 是 ， 这 是 否 意味 着 拒绝 对 应 特征 值 为 0.999 的 主 成 分 一 定 对 分 析 有 
利 ?” 类 似 的 ， 接 受 对 应 特征 值 比 1 略 大 的 主 成 分 也 不 一 定 对 分 析 有 利 。 在 陡坡 图 中 ， 有 时 候 主 成 分 之 间 在 垂直 方向 的 落差 几乎 相等 ， 在 这 种 情况 下 ， 依 据 该 准则 也 不 能 准确 地 判定 主 成 分 个 数 。 用 累积 变异 个 
数 来 确定 主 成 分 个 数 时 也 会 存在 类 似 的 情况 : 一 般 认 为 70% 的 变异 是 足够 的 ， 但 到 底 多 少 最 合适 并 没有 定论 。 


事实 上 ， 正 如 上 面 指出 的 一 样 ， 没 有 哪 一 种 准则 是 通用 的 。 在 处 理 主 成 分 个 数 的 问题 中 ， 如 果 遇 到 个 数 不 是 很 明显 的 情形 ， 可 以 综合 考虑 以 上 几 种 方法 进行 判定 。 例 如 ， 在 是 否 接受 特征 值 为 1 左右 的 主 
成 分 问题 上 ， 可 以 参考 当前 累积 变异 ;如 果 接 受 该 主 成 分 对 累积 变异 的 比例 贡献 不 大 ， 则 可 以 不 接纳 该 主 成 分 。 最 后 ， 对 主 成 分 个 数 的 判定 不 能 脱离 研究 问题 的 背景 。 例 如 ， 假 设 当前 主 成 分 主 由 若干 个 变 
量 组 成 ， 这 些 变量 代表 一 种 综合 结构 、 指 标 ( 例 如， 若干 个 变量 都 是 关于 娱乐 方面 支出 或 者 教育 方面 的 投入 ) ， 且 与 其 他 综合 指标 并 不 重复 ， 那 么 无 论 它 的 特征 值 是 否 接 近 于 1， 无 论 累 积 变异 比例 多 少 ， 都 
应 该 将 该 综合 指标 考虑 进来 。 


12.2 ”使 用 SAS 实 现 主 成 分 分 析 


在 SAS 中 ， 某 种 统计 方法 可 能 可 以 通过 多 个 过 程 步 实现 。 这 时 候 有 必要 了 解 过 程 步 之 间 的 区 别 。 比 如 ， 主 成 分 分 析 就 可 以 通过 PROC FACTOR 或 PROC PRINCOMP 实 现 。 下 面 就 来 比较 二 者 之 间 的 区 


12.2.1 FACTOR 过 程 与 PRINCOMP 过 程 的 比较 


过 程 步 PROC FACTOR 不 仅 可 以 进行 主 成 分 分 析 ， 还 可 以 用 来 做 因子 分 析 ， 其 默认 方法 是 主 成 分 分 析 。 使 用 PROC FACTOR 与 PROC PRINCOMP 进 行 主 成 分 分 析 时 ， 除 了 因子 得 分 系数 和 矩阵 有 区 别 外 ， 
二 者 的 输出 结果 几乎 一 致 。 至 于 因子 得 分 系数 德 阵 的 区 别 ， 有 具体 来 说 指 的 是 : 在 PROC FACTOR 中 ， 主 成 分 在 各 个 变量 上 的 得 分 系数 的 方差 是 标准 单位 1， 而 在 PROC PRINCOMP 中 ， 主 成 分 在 各 个 变量 上 
的 得 分 系数 的 方差 是 其 对 应 的 特征 值 (具体 见 12.2.3 节 例 12.2) 。 二 者 均 支持 通过 ODS 图 形 选 项 输出 图 形 。 


同 PROC FACTOR 相 比 ，PROC PRINCOMP 具 有 以 下 优点 : 
当 预 期 的 主 成 分 个 数 较 少 的 时 候 ， 使 用 PROC PRINCOMP 需 要 运行 的 时 间 较 少 。 
. 在 内 存 一 定 的 情况 下 ，PROC PRINCOMP 能 处 理 的 问题 规模 更 大 一 些 。 
PROC PRINCOMP 对 偏 协 方差 矩阵 或 偏 相关 短 阵 进行 分 析 时 会 输出 相应 的 得 分 。 
. 从 使 用 角度 来 说 ，PROC PRINCOMP 更 简单 容易 掌握 。 

同 PROC PRINCOMP 相 比 ，PROC FACTOR 具 有 以 下 优点 : 
. 从 输出 结果 看 ，PROC FACTOR 输 出 内 容 更 丰富 。 


. PROC FACTOR 可 以 用 来 做 因子 旋转 。 


12.2.2 ”使 用 PRINCOMP 过 程 进行 主 成 分 分 析 


使 用 PROC PRINCOMP 进 行 主 成 分 分 析 时 ， 其 输入 可 以 是 原始 数据 集 、 协 方差 矩阵 或 相关 和 矩阵 等 ， 其 输出 数据 集 包 含 特征 根 、 特 征 向 量 以 及 标准 化 或 未 标准 化 的 主 成 分 得 分 。 此 外 ， 使 用 者 还 可 以 通过 
ODS 图 像 选项 输出 陡坡 图 (Scree Plot) 、 成 分 特征 图 (Component Pattern Plot) 等 图 形 ， 这 些 图 形 都 是 进行 主 成 分 分 析 的 有 用 工具 。 过 程 步 PROC PRINCOMP 的 一 般 形式 如 下 : 





PROC PRINCOMP< 选 项 >; 
变量 ，; 








VAR 变 量 ; 


" PROC PRINCOMP 语 名 中 常见 的 选项 如 表 12.1 所 示 。 


表 12.1 PROC PRINCOMP 常 见 的 选项 及 含义 


指定 用 于 主 成 分 分 析 的 输入 数据 集 。 该 数据 集 既 可 以 是 原始 数据 集 ， 也 可 以 是 协 方差 矩阵 或 者 


DATA= 相关 系数 矩阵 等 非 原始 数据 集 。 如 果 数 据 集 是 非 原始 数据 集 ， 数 据 集 的 类 型 必须 加 以 定义 ,例如 
TYPE=COV 表示 该 数据 集 存 储 的 是 协 方差 矩阵 。 关 于 如 何 定义 数据 集 的 类 型 ， 请 参考 SAS 帮助 文档 

OUT= 指定 主 成 分 分 析 的 输出 数据 集 ， 该 数据 集 包 含 原 始 数据 集 以 及 主 成 分 得 乡 

OUTSTAT= 指定 输出 数据 集 所 包含 的 统计 量 

COV 从 协 方差 矩阵 出 发 计算 主 成 分 ， 默 认 从 相关 答 阵 出 发 计算 主 成 分 ， 有 具体 要 指定 哪 一 个 矩阵 ， 请 
参照 前 面 关 于 “ 主 成 分 分 析 难 点 探讨 ”部 分 

N= 指定 主 成 分 的 个 数 。 默 认输 出 全 部 主 成 分 (个 数 与 原 数据 集中 变量 个 数 相等 ) 

STD 标准 化 主 成 分 得 分 ， 该 选项 默认 时 ， 方差 为 对 应 的 特征 值 

PLOTS= 指定 用 于 控制 输出 图 形 的 选项 


. BY 语句 指定 分 组 变量 。PROC PRINCOMP 根 据 BY 语 句 中 的 变量 对 原 数据 进行 分 组 分 析 。 若 BY 语句 中 的 变量 多 于 一 个 ， 那 么 仅 最 后 一 个 变量 起 作用 。 该 语句 要 求 原始 数据 已 按照 BY 语句 中 的 变量 排 


* VAR 语 和 句 指定 数据 集中 用 来 进行 主 成 分 分 析 的 变量 ， 这 些 指 定 变量 类 型 必须 为 数值 型 。 


例 12.1: 数据 集 sashelp.cars 包 含 不 同型 号 的 汽车 的 一 些 参 数 ， 共 有 15 个 变量 以 及 428 条 观测 ， 具 体 变 量 的 含义 如 表 12.2 所 示 。 现 在 要 根据 数据 集 sashelp.cars 中 的 变量 MPG_City、MPG_Highway、 
Weight、Wheelbase 以 及 Length， 对 其 进行 主 成 分 分 析 。 


表 12.2 ”数据 集 sashelp.cats 中 的 变量 具体 信息 


zs 
-~ 


Es 
航 
头 
由 





星 
Make 字符 
Model 和 
Origin 字符 
Type 字符 
DriveTrain 字符 
MSRP 数值 
Invoice 效 但 
EngineSize 引 警 个 数 [人 值 
Cylinders 效 但 
Horsepower 妆 伍 
MPG_City 每 百 千 米 城市 油耗 数值 
RE 每 百 二 米 高 速 油 丰 数值 
west 人 
Length 数值 


示例 代码 如 下 : 





proc princomp data = sashelp.cars out = car component; 
var MPG City MPG Highway Weight Wheelbase Length; 
run; 


程序 的 输出 结果 中 包含 了 数据 集 的 一 些 简单 统计 量 ， 具体 如 图 12.3 所 示 。 


PRINCO 





P 过 程 


观测 | 428 
变 最 | 5 


简单 统计 县 
MPG_City MPG Highway Weight Wheelbase Length 
均值 20.06074766 26 BA3A5194 5 052 | 108. 1542056 186. 3621495 
StD 5.23821764| 5.74120072 758.983215| 8.3118130 | 14.3579913 


图 12.3 ”数据 集 sashelp.cars 的 简单 统计 量 


紧 接 着 是 相关 和 矩阵 以 及 该 矩阵 对 应 的 特征 值 ， 如 图 12.4 所 示 。 


相关 生 阵 
MPG Gity ] MPG Highway Weight Wheelbase ] Lenegth 
MPG_Gity MPG (City) | 1. 0000 0. 9410 -.7380 一 . 6 上 | -. 5015 
MPG_Highmay MPG (Highway) 1.0000 一- 1910 -—. 52471 | -. 4661 


Wenreht Weight (LBS;) -. 7380 | -. 910 1. 0000 


0. T8607 | 0. 6900 





Wheelbase Wheelbase (IM) -. 5073 -. 5247 | 0.7607 1. 0000 
Lemeth Leneth (IN) -. 5015 -. 4661 0.6900 0. 8892 | 1.0000 
相关 算 阵 的 特征 值 

特征 值 差 值 ”比例 累积 






0. T1459 10. 1459 


2 | 0. 91611110 | 0. 70637567 | 0 1832 
3 | 0. 20973544 | 0. 10950028 0.0419 | 0. 9711 
4 
5 


3. J2960820 2.813497110 


0. 100236515 | 0. 05592505 0. 0200 0.9911 
0.04431011 0. 0089 | 1. 0000 


图 12.4 相关 给 阵 以 及 其 特征 值 
从 相关 矩阵 中 可 以 看 出 : 变量 MPG_Highway 与 MPG City 之 间 有 很 强 的 相关 性 ; 变量 Weight、Wheelbase 和 Length 两 两 之 间 的 相关 性 也 较 强 。 


从 相关 矩阵 的 特征 值 表 中 可 以 看 出 : 对 应 于 特征 值 3.7296 的 主 成 分 能 解释 74.59% 的 变异 ;对 应 于 特征 值 0.9161 的 主 成 分 能 解释 全 部 变异 的 比例 为 18.32%; 前 两 个 主 成 分 能 解释 的 变异 比例 达到 了 
92.91%。 


接 下 来 输出 的 是 特征 向 量 表 ， 该 表 给 出 的 是 对 应 上 述 特征 值 的 特征 向 量 ， 如 图 12.5 所 示 。 


在 讲述 主 成 分 分 析 的 原理 时 ， 曾 介绍 过 主 成 分 分 析 是 通过 对 原始 变量 的 线性 组 合生 成 若干 个 主 成 分 的 。 现 在 从 特征 向 量 表 中 ， 可 以 得 到 每 一 个 主 成 分 线性 组 合 的 具体 信息 ， 例 如 ， 从 该 表 可 以 知道 第 一 
主 成 分 为 : 


Prinl=-.443657*MPG_City-.448585*MPG_ Highway+0.479373*Weight+0.439937*Wheelbase+0.422608*Length 


从 这 个 角度 说 ， 主 成 分 仍然 是 可 观测 的 ， 可 以 通过 观测 主 成 分 中 各 个 变量 的 值 ， 再 使 用 线性 组 合 的 信息 得 出 主 成 分 的 信息 (对 比 在 下 文 因子 分 析 中 ， 因 子 是 不 可 观测 的 ) 。 此 外 ， 每 一 条 观测 带 入 上 述 
式 子 即 可 得 到 该 观测 在 第 一 主 成 分 上 的 得 分 。 


























MPG City | MPG (City) -. 443667 | 0. 478479 | 0. 429840 | -. 061900 | -. 621909 
MPG_Highway | NPG (Highway) | -. 448585 0.491839 | 0.043269 0.227730 | 0. 709319 
| Neinht | Weight (LBS) |0.479373 ~ 0. 780243 | 0. 371986 | 0. 150416 
Wheelbase |Wheelbase (IN) |0.439937 0. 493256 | 0.058284 | -. 729338 |0. 166803 
Length Length (IN) |0.422608 0.534254 | -. 448541 0.524536 |-. 244229 


图 12.5 “对 应 相关 矩阵 特征 值 的 特征 向 量 


最 后 ， 如 果 ODS GRAPHICS 选项 处 于 打开 状态 ， 过 程 步 还 会 输出 陡坡 图 和 方差 解释 图 ， 如 图 12.6 所 示 。 陡 坡 图 在 上 一 节 中 已 经 讲述 了 ， 这 里 就 不 再 重复 。 方 差 解 释 图 反映 的 是 累积 解释 方差 比例 的 信 


陡坡 图 方 荆 解释 


比例 


特征 值 





图 12.6 PROCPRINCOMP 输 出 的 陡坡 图 和 方差 解释 图 


综合 上 面 的 分 析 可 以 用 主 成 分 Prin1 和 Prin2 来 代 蔡 原始 数据 集 的 变量 进行 分 析 。 除 了 上 述 输出 结果 外 ， 过 程 步 还 生成 了 数据 集 Work.Car_ component。 该 数据 集 包括 原始 数据 集 的 所 有 变量 
Prin1-Prin5 ( 取 值 为 对 应 观测 在 主 成 分 上 的 得 分 ) ， 部 分 结果 如 图 12.7 所 示 。 


以 及 主 成 分 


1 271 1446751 
0 .502452442 
-1.131460738 
-0.811862831 


0 3620617474 
03817031016 
0.0215354042 
0.1133534838 


图 12.7 


051938646135 
0063281343 
0.099399746 


Es 


数据 集 Work.Car_component 


0.5911548392 
0.163149782 
0.0497355148 
0.0453305292 

15640376 
人 01500932315 
00805025 
0.0814661664 
1698606865 





从 图 12.7 可 以 看 出 ， 原 始 数据 集 的 第 一 条 观测 在 第 一 主 成 分 Prin1 上 的 得 分 为 1.0745， 在 第 二 主 成 分 Prin2 上 的 得 分 为 -0.6622， 以 此 类 推 。 需 要 指出 的 是 ， 


-0.011961193 
-0.038867105 
0.1525819612 


之 所 以 在 某 个 主 成 分 上 得 分 为 负数 ， 是 因为 在 


计算 主 成 分 得 分 时 使 用 了 标准 化 后 的 原始 数据 集 。 


12.2.3 ”使 用 FACTOR 过 程 进 行 主 成 分 分 析 


除了 PROC PRINCOMP 外 ， 还 可 以 使 用 PROC FACTOR 来 进行 主 成 
准 化 是 通过 PROC STDIZE 实 现 的 ，PROC STDIZE 的 一 般 形 式 如 下 : 





PROC STDIZE DATA = 数据 集 

METHOD = 标准 化 方法 ; 
VAR 变量 ， 

RUN; 























其 中 : 


选项 METHOD 指 定 用 于 标准 化 的 方法 。 常 见 的 标准 化 方法 有 MEAN、 


. VAR 语 名 指定 数据 集中 用 来 进行 主 成 分 分 析 的 变量 ，: 
变量 的 计算 方法 如 下 : 


新 的 变量 值 = (原来 的 变量 值 -LOCATION) /SCALE 


这 里 LOCATION 和 SCALE 的 值 与 标准 化 方法 有 关 。 表 12.3 列 举 了 一 些 常见 


分 分 析 。 事 实 上 ， 在 进行 标准 化 后 ， 


变量 类 型 必须 为 数值 型 。 若 该 语句 缺失 ， 那 么 PROC FACTOR 将 分 析 数 据 集 中 的 所 有 数值 型 变量 。 





二 者 的 结果 是 一 样 的 。 为 了 比较 二 者 的 结果 ， 首 先 介绍 如 何 对 数据 进行 标准 化 。SAs 对 数据 的 标 


MEDIAN、SUM、EUCLEN 和 STD。 


号 


的 标准 化 方法 的 LOCATION 和 SCALE 值 。 有 关 其 他 方法 的 具体 参数 值 建议 读者 参考 SAs 官 方 帮助 文档 。 


表 12.3 ”常见 标准 化 方法 中 的 LOCATION 值 与 SCALE 值 
标准 化 方法 cnr 
MEAN 均值 (Mean ) 1 
MEDIAN 中 位 数 (Median) 1 
SUM 0 和 (Sum) 
EUCLEN 0 欧式 长 度 (Euclidean Length ) 
STD 均值 (Mean ) 怀 谁 差 (Standard Deviation ) 


这 里 仅 简单 介绍 PROC FACTOR 中 与 主 成 分 分 析 相 关 部 分 的 选项 ， 在 下 文 使 用 PROC FACTOR 进 行 因子 分 析 时 ， 会 对 其 他 选项 进 





了 介绍 。PROC FACTOR 的 语法 如 下 : 





PROC FACTOR< 选 项 >; 
VAR 变 量 ，; 
RUN; 





其 中 : 
“ 常见 的 选项 有 : DATA= 用 于 指定 输入 数据 集 


* VAR 语 名 指定 数据 集中 用 于 分 析 的 变量 。 


例 12.2: 使 用 PROC FACTOR 对 数据 集 sashelp.cars 进 行 主 成 分 分 析 。 


示例 代码 如 下 : 








proc factor data = sashelp.cars simple corr; 
var MPG City MPG Highway Weight Wheelbase Length; 
run; 











输出 结果 中 基本 统计 量 与 相关 和 矩阵 的 部 分 如 图 12.8 所 示 。 


集 ，SIMPILE 输 出 常见 的 统计 量 ，CORR 输 出 原始 


变量 的 相关 和 佐 阵 。 


SAS 系统 


FACTOR 过 程 


输入 数据 类 型 原始 数据 





读 取 的 记录 数 
使 用 的 记录 数 428 
用 于 显著 性 检验 的 N 428 


428 直观 测 的 均值 和 标准 差 
达旦 | “均值 。 标准 差 , 
] | | 4 | 基本 统计 量 


MPG City | 20.0607| 5.23822 
MPG Highnway 26.8435 5.74120 










































































































Weisht |3577.9533 | 758.98321 
Wheelbase | 108.1542 8.31181 
Length | 186.3621| 14.35799 | 
相关 性 
MPG_City | MPG_Highway | Weieht | Wheelbase| Length 
MPG_City MPG (City) 1.00000 0.94102 | -0. 73797 | -0. 50728 | -0. 50153 
MPG_Highway MPG (Highway) | 0.94102 | 1. 00000 | -0. 79099 | -0. 52466 | -0. 46609 
Weight Weight (LBS) | -0.73797 | -0.79099| 1.00000 0.76070，0. 69002 
Wheelbase Wheelbase (IN) | -0.50728 -0.52466| 0.76070 1.00000，0.88919 
Length Length (IN) | -0.50153| -0.46609| 0.69002| 0.88919| 1.00000 


图 12.8 ”输出 基本 统计 量 与 相关 和 矩阵 


同时 ，PROC FACTOR 还 输出 了 相关 和 矩阵 的 特征 值 与 解释 的 变异 比例 ， 这 部 分 内 容 也 和 PROC PRINCOMP 一 致 ， 如 图 12.9 所 示 。 由 该 表 可 以 判定 主 成 分 个 数 为 1 或 者 2。 





子 方差 估 计 : ONE 





先 验 公 








粗 关 和 矩阵 的 特征 值 : 总 计 = 5 平均 值 = 1 
特征 值 值 
3. 12g00820 2, 81349110 


0.91611110 0. 





















0. 20913544 0. 





0. 10023515 0. 


0. 04431011 1. 





图 12.9 ”相关 和 矩阵 特征 值 以 及 解释 变异 的 比例 


除 此 之 外 ，PROC FACTOR 还 输出 了 公共 因子 信息 ， 这 是 PROC PRINCOMP 所 没有 的 。 但 是 ， 二 者 在 本 质 上 是 一 样 的 。 为 了 便于 比较 ， 这 里 将 因子 (这 里 可 以 理解 为 主 成 分 ) 个 数 定 为 2 个 ， 代 码 修改 
如 下 : 











proc factor data = sashelp.cars simple corr n=2; 
var MPG City MPG Highway Weight Wheelbase Length; 
run; 





这 里 的 关键 字 N=2 限 定 了 输出 因子 的 个 数 为 2。 输 出 结果 与 修改 前 大 致 一 致 ， 只 是 有 关 因 子 方面 的 信息 发 生 了 变化 ， 具 体 如 图 12.10 所 示 。 


输出 的 得 分 矩阵 进行 标准 化 ， 然 后 对 标准 化 后 的 得 分 矩阵 进行 缩放 即 可 ， 
1/V5= 0.44721， -代码 如 下 : 


3 小 因子 将 破 NFACTOR 准则 保留 。 


因子 模式 

Factori1 Factor2 

MPG City | MPG (City) -0.85680 | 0.45797 
MPG Highway | MPG (Highway) | -0.86632| 0.47076 
Weight Weight (LBS) 0.92577 | -0.01971 
Wheelbase | Wheelbase (IN) 0.84961 | 0. 47211 
ES | Length (IMD 0.81615 | 0. 51135 























每 小 因子 说 明 的 方差 
Factor1 Factor2 
3. 7296082 0.9161111 


最终 的 会 因 于 方差 估计 : 总 计 = 4. 645719 


MPG Gity MPG Hiehway Weieht Wheelbase Leneth 





0. 943 


图 12.10 指定 输出 因子 的 信息 
如 果 将 上 述 结果 的 Factor1 与 Factor2 分 别 看 成 第 一 主 成 分 与 第 二 主 成 分 ， 那 么 因子 模式 图 提供 了 主 成 分 由 原始 变量 线性 组 合 的 信息 。 例 如 ， 第 一 主 成 分 为 : 
Factor1=-0.85680*MPG_City-0.86632*MPG_Highway+0.92577*Weight+0.84961*Wheelbase+0.81615*Length 
至 此 ， 我 们 利用 PROC FACTOR 完 成 了 对 原始 数据 的 主 成 分 分 析 : 找 出 了 主 成 分 的 个 数 为 2 个 ， 并 且 知 道 了 如 何 通过 原始 变量 的 线性 组 合 得 到 主 成 分 。 
虽然 通过 过 程 步 PROC FACTOR 和 PROC PRINCOMP 得 到 的 主 成 分 个 数 一 样 ， 解 释 的 方差 也 一 致 ， 但 是 主 成 分 的 构成 不 一 样 。 回 顾 例 12.1， 在 该 例 中 ， 第 一 主 成 分 为 : 


Prinl=-0.443657*MPG_City-0.448585*MPG_ Highway+0.479373*Weight+0.439937*Wheelbase+0.422608*Length 


导致 二 者 差异 的 主要 原因 是 PROC FACTOR 会 假设 所 有 的 因子 或 主 成 分 的 方差 为 1， 而 PROC PRINCOMP 则 假设 所 有 主 成 分 的 方差 为 特征 值 。 如 果 要 两 者 要 得 到 一 样 的 结果 ， 
缩放 的 比例 为 ! YX. 这 里 N 为 变量 个 数 。 这 一 标准 化 过 程 以 及 缩放 可 以 通过 PROC STDIZE 来 实现 。 例 如 ， 在 本 例 中 ， 缩 放 的 比例 为 


Uda 0. 97211617 0. S8544497 0. 94413620 0. 92158202 


只 需要 对 PROC FACTOR 








proc factor data=sashelp.cars n= score; 
ods output StdScoreCoef=Coe 
var MPG City MPG Highway Weight Wheelbase Length; 











Un; 
roc stdize method=ustd mult=0.44721 data=Coef 
Ut=work.eigenvectors; 

Var Factorl-FactorD; 








HH OH 
CO 四 





ns’ 
roc print data=work.eigenvectors; 
n 


数据 集 work.eigenvectors 的 输出 结果 如 图 12.11 所 示 。 
该 结果 和 例 12.1 中 的 结果 一 致 。 


综 上 所 述 ， 利 用 PROC FACTOR 和 PROC PRINCOMP 进 行 主 成 分 分 析 从 本 质 上 讲 是 一 样 的 。 


Dbs Varable Label Factor 1 Factor? Factord Factord Factory 


1 MPG_Gity MPG (City) 0. 4436535 0. 4T847413 0. 42983646 -0.0518999 -00.6219039 
2 | MPG_HIEhasay | MPG (Highway) | -0. 4485812 0. 49183497 | 0.04326841 0. 227121796 0. 70931306 
3 | Welight Weight (LBS) 0.41936869 | -0. 0205885 0. J8023687 0. 37198312 0. 15041504 
4 Wheelbase Wheelbsase (IN) 0.43993344 | 0 49325168 | 0. 05828316 | -0. 7293321 0. 16680216 
5 Length Length (IN) 0. 42260452 | 0. 53425005 -0. 4485375 0. 52453168 =0. 24422] 


图 12.11 ”标准 化 后 的 得 分 算 阵 


12.3 ”因子 分 析 概 述 
前 面 讨 论 的 主 成 分 分 析 是 对 现 有 的 随机 变量 通过 线性 变换 生成 新 的 随机 变量 ， 由 于 新 生成 的 随机 变量 是 按照 对 变异 贡献 的 大 小 排序 的 ， 因 此 仅仅 考察 前 几 个 主 成 分 就 可 以 实现 分 析 目 的 ， 使 问题 得 到 了 
简化 。 因 子 分 析 的 目的 也 是 寻找 潜在 的 少数 几 个 ( 少 于 原始 随机 变量 数目 ) 新 的 变量 ， 以 便 在 实际 工作 中 可 以 采取 更 合理 的 方案 或 措施 ， 并 揭示 隐藏 在 数据 中 的 基本 规律 。 


主 成 分 分 析 考 察 和 解释 的 是 方差 ， 也 就 是 数据 的 变异 程度 ， 而 因子 分 析 却 是 从 随机 变量 协 方差 也 就 是 相关 性 的 角度 进行 研究 的 。 


12.3.1 公共 因子 与 特殊 因子 


因子 就 是 前 面 所 说 的 试图 寻找 到 的 潜在 的 、 个 数 较 少 、 反 映 原 始 随 机 变量 相关 性 的 新 随机 变量 。 前 面 介绍 的 主 成 分 可 以 由 原始 变量 线性 表示 ， 是 可 以 观测 的 。 与 主 成 分 不 同 ， 因 子 往往 不 能 像 主 成 分 一 
样 ， 由 原始 变量 线性 表示 ， 因 此 是 不 可 观测 的 。 在 因子 分 析 中 ， 因 子 可 以 分 为 公共 因子 和 特殊 因子 。 对 原始 数据 若干 个 指标 都 起 作用 的 称 为 公共 因子 ， 仪 仅 对 某 个 指标 起 作用 的 称 为 特殊 因子 。 例 如 ， 对 若 
干 名 高 中 学 生 的 语文 、 数 学 与 英语 成 绩 进 行 分 析 ， 得 知 每 个 科目 的 成 绩 和 一 个 变量 都 相关 ， 我 们 称 这 个 变量 为 智力 。 这 个 变量 “智力 ”是 虚构 出 来 的 、 不 可 观测 的 ， 即 因子 。 该 因子 反映 了 3 个 科目 成 绩 的 变 
异 ， 因 此 ， 是 一 个 公共 因子 。 每 个 科目 的 成 绩 除 了 和 智力 相关 ， 可 能 还 和 其 他 因素 相关 。 我 们 将 其 他 因素 笼统 地 用 另外 一 个 虚拟 变量 来 表示 ， 这 个 虚拟 变量 称 为 特殊 因子 。 


假设 X1、X2、X3 分 别 对 应 学 生 的 语文 、 数 学 与 英语 成 绩 。 记 公共 因子 为 F， 特 殊 因 子 为 ei (ei 仅 对 科目 Xi 有 作用 ) 。 那 么 ， 每 个 科目 的 成 绩 都 遵从 以 下 形式 : 


Xi=af F+ei (i=1，2，3) 


1 


对 上 述 例子 进行 推广 ， 假 设 每 一 个 科目 的 成 绩 不 止 受到 一 个 公共 因子 的 影响 而 是 m 个 (可 以 认为 m 通 常 小 于 等 于 科目 数 ) : F1，.…，Fm。 这 时 候 ， 每 个 科目 的 成 绩 都 遵从 以 下 形式 : 


Xi=aif Fi+aiy F? 十 2 “amte; 


不 失 一 般 性 ， 这 里 假设 : Xi; 为 标准 化 后 的 成 绩 ， 即 均值 为 0， 方差 为 1;，F1，F2，.…，Fm 是 彼此 不 相关 的 公共 因子 ， 均 满足 均值 为 0， 方 差 为 1;， ej 为 特殊 因子 ， 与 每 一 个 公共 因子 均 不 相关 且 均 值 为 0; 系 
数 ai1，ai2，.…，aim 分 别称 为 第 门 考试 成 绩 在 F1，F2，.….，Fm 上 的 因子 载荷 。 
对 于 上 述 模型 ， 我 们 有 


3? 


+var(e;)=1 


i 


” | ) 
we a ta ta 


从 上 面 的 等 式 可 以 看 出 ,方差 可 以 分 为 两 部 分 ,一 部 分 和 公共 因子 相关 ， 即 等 式 中 的 %%*…% 称 为 X 的 共性 方差 ， 记 为 “另外 一 部 分 var (ei) 称 为 X 的 特殊 度 或 者 剩余 方差 。 由 于 共性 方差 的 总 和 不 超过 
1， 因 此 ， 对 于 每 一 个 因子 载荷 aij YQ=1，2，.….，m) ， 我 们 有 -1<aii&1。 一 般 情况 下 ， 因 子 载荷 ai 的 绝对 值 越 大 ， 代 表 X 注 因子 Fi 的 相互 依赖 程度 越 强 。 由 因子 载荷 ai 组 成 的 矩阵 称 为 因子 载荷 矩阵 。 


12.3.2 ”因子 分 析 的 计算 过 程 


因子 分 析 过 程 可 以 分 为 : 因子 载荷 计算 、 因 子 旋 转 与 因子 得 分 3 个 部 分 。 因 子 载荷 的 计算 方法 主要 有 主 成 分 法 、 主 轴 因 子 法 、 最 小 二 乘法 、 极 大 似 然 法 以 及 a 因子 提取 法 。 这 些 方法 求解 的 出 发 点 不 同 ， 
所 得 的 结果 也 不 尽 相同 。 在 对 因子 载荷 进行 计算 后 ， 就 要 结合 求解 问题 的 背景 去 分 析 公 共 因 子 的 意义 了 。 如 果 公 共 因 子 的 实际 意义 不 明显 ， 可 以 尝试 着 进行 因子 旋转 。 经 过 旋转 ， 因 子 的 结构 会 发 生变 化 。 
值得 一 提 的 是 ， 旋 转发 生变 化 不 代表 先前 的 因子 结构 是 错误 的 ， 二 者 仪表 示 看 问题 的 角度 不 同 而 已 。 
1. 因 子 载荷 计算 

在 众多 的 因子 载荷 计算 方法 中 ， 哪 种 方法 最 有 效 并 无 定论 。 这 里 仪 介绍 主 成 分 分 析 法 与 极 大 似 然 法 。 


下 面 首先 介绍 如 何 利用 主 成 分 分 析 法 进行 因子 载荷 计算 。 用 主 成 分 法 确定 因子 载荷 时 首先 要 对 数据 进行 一 次 主 成 分 分 析 ， 将 前 面 的 几 个 主 成 分 作为 未 旋转 的 公共 因子 。 使 用 该 方法 的 优点 是 对 公共 因子 
与 特殊 因子 的 分 布 均 无 假设 要 求 ; 缺点 是 计算 出 来 的 特殊 因子 之 间 是 相关 的 。 不 过 ， 当 共性 方差 较 大 时 ， 特 殊 因子 之 间 相 关 性 带 来 的 影响 几乎 是 可 以 忽略 的 。 因 此 ， 很 多 有 经 验 的 分 析 人 员 在 进行 因子 分 析 
的 时 候 总 是 先 举 试 使 用 主 成 分 分 析 ， 然 后 再 尝试 使 用 其 他 方法 。 与 主 成 分 分 析 法 不 同 ， 极 大 似 然 法 需要 假定 公共 因子 和 特殊 因子 服从 正 态 分 布 ， 通 过 构造 极 大 似 然 函 数 来 对 因子 载荷 与 特殊 因子 方差 进行 极 
大 似 然 估计 。 


如 果 因 子 满足 正 态 性 假设 ,读者 可 以 先 尝 试 使 用 极 大 似 然 法 ;否则 建议 尝试 使 用 主 成 分 分 析 法 ， 该 方法 对 分 布 并 无 要 求 。 


2. 因 子 旋转 


进行 因子 载 符 计算 的 最 终 目 的 不 仅 在 于 寻找 公共 因子 ， 更 重要 的 是 对 公共 因子 的 意义 进行 分 析 。 理 想 情 况 下 ， 我 们 希望 看 到 变量 在 某 单个 因子 上 具有 高 额 载 位 ， 而 在 其 余 因 子 上 有 较 小 的 载 答 。 例 如 ， 
通过 对 例 12.1 中 的 数据 集 sashelp.cars 进 行 因 子 分 析 (具体 见 12.4 节 的 例 12.3) ,我 们 抽取 了 两 个 公共 因子 ， 具 体 如 图 12.12 所 示 。 


从 图 12.12 可 以 看 出 ， 除 了 变量 Weight ( 仅 在 Factor1 上 有 高 额 载 倚 ) 以 外 ， 其 他 变量 在 两 个 因子 上 均 有 了 明显 的 载荷 。 因 此 ， 很 难 分 析出 因子 Factor1 与 Factor2 的 实际 意义 。 


图 12.13 显 示 的 是 经 过 选择 后 的 因子 模式 图 。 从 该 图 中 可 以 看 出 ， 经 过 旋转 ， 因 子 有 了 明显 的 “改进 ”: 变量 MPG City 和 变量 MPG Highway 仅 在 因子 Factor1 上 有 高 额 载荷 ， 变 量 Wheelbase 和 变量 
Length 仅 在 因子 Factor2 上 有 高 额 载荷 。 这 对 我 们 分 析 因 子 的 实际 意义 是 很 有 帮助 的 。 例 如 ， 由 于 变量 MPG City 和 变量 MPG Highway 仅 在 因子 Factor1 上 有 高 额 载荷 ， 因 此 可 以 将 二 者 结合 起 来 考虑 ， 例 
如 可 以 将 因子 Factor1 解 释 成 “汽车 整体 油耗 ” 。 


因 于 模式 
Factorl | Factorz 
MPG_Gity MPG (City) ] -0. 85329 | 0 41984 
MPG Highaay MPG (Highway) | -0 86706 , 0. 43988 
Weieht Weieght (LBS) 0. 89251 | 0. 00748 
heelbase Wheelbase (IN) | 0.82708 | 0. 44422 
Leneth | Leneth LIN) 0. T8887 | 0. 46339 


图 12.12 ”未 经 旋转 的 因子 模式 图 


Factorl Factorz 
MPG City |MPG (City) 0 90813 | -0. 28225 
MPG Highway | MPG (Highway) | 0.93191 | -0. 27718 
Weieht Weight (LBS) -0.64265| 0.61938 
Wheelbase Wheelbase (IN) | -0. 29472 | 0.89137 
Leneth Leneth (IN) | -0.25381 | 0.87899 


图 12.13 ”旋转 后 的 因子 模式 图 
因子 旋转 的 方法 很 多 ， 大 体 上 可 以 分 为 正 交 旋转 和 和 斜 交 旋转 。 所 谓 正 交 旋转 是 由 初始 载荷 矩阵 A 右 乘 以 正 交 和 矩 阵 。 经 过 正 交 旋转 得 到 的 新 的 公共 因子 仍然 保持 彼此 不 相关 的 性 质 (例如 ， 图 12.1 中 Y1 与 
Y2 可 以 看 成 是 X1 与 X2 经 过 正 交 旋转 得 到 的 ) 。 而 斜 交 旋转 则 是 放松 了 因子 彼此 不 相关 这 一 限制 ， 因 而 得 到 的 公共 因子 可 能 是 相互 关联 的 。 实 现 正 交 旋转 最 常用 的 方法 是 方差 最 大 正 交 旋转 法 ， 该 方法 是 由 
H.K.Kaiser 最 先 提 出 的 。 该 方法 的 基本 思想 是 使 每 个 因子 中 包含 高 载荷 变量 的 个 数 最 少 。 实 现 斜 交 旋 转 中 最 常用 的 方法 是 Promax 法 ， 该 方法 由 Hendrickson 等 人 于 1964 年 提出 ， 原 理 是 先进 行 正 交 旋转 ， 找 
到 一 个 方差 最 大 的 正 交 解 ， 接 着 在 该 正 交 解 的 基础 上 进行 斜 交 旋转 。Promax 法 速度 快 ， 适 用 于 数据 量 较 大 的 情形 。 
采用 正 交 旋转 还 是 斜 交 旋转 的 根本 依据 是 使 用 者 是 否 需 要 公共 因子 之 间 是 彼此 不 相关 的 。 一 般 来 说 ， 采 用 这 两 种 旋转 方法 就 可 以 达到 不 错 的 效果 。 下 文 会 介绍 如 何在 SAs 中 指定 旋转 方法 。 限 于 篇 幅 ， 
其 他 旋转 方法 就 不 一 一 介绍 ， 有 兴趣 的 读者 可 以 进一步 查阅 相关 的 SAS 官 方 文档 。 


3. 因 子 得 分 


在 因子 分 析 中 ， 我 们 最 终 感 兴趣 的 可 能 是 因子 的 得 分 。 例 如 ， 假 设 对 sashelp.cars 进 行 分 析 后 ， 得 到 了 两 个 因子 : F1 与 F2。 如 果 要 计算 数据 中 每 一 条 观测 在 因子 F1 与 [2 上 的 得 分 就 会 涉及 因子 得 分 。 在 
主 成 分 分 析 中 ， 也 有 过 类 似 的 “得 分 ”概念 。 需 要 指出 的 是 ， 二 者 其 实 是 不 一 样 的 。 在 主 成 分 分 析 中 ， 主 成 分 是 原始 变量 的 线性 组 合 ( 例 12.1 中 的 主 成 分 Prin1) ， 在 考虑 所 有 主 成 分 的 情况 下 ， 主 成 分 与 原 


变量 之 间 的 关系 是 可 逆 的 。 在 因子 分 析 中 ， 公 共 因 子 与 原始 变量 的 关系 是 不 可 逆 的 ， 不 过 它们 之 间 的 关系 可 以 通过 回归 得 到 。 在 得 到 相应 的 关系 后 ， 就 可 以 根据 原始 数据 的 观测 在 变量 上 的 取 值 来 计算 该 
观测 在 公共 因子 上 的 得 分 了 


12.3.3 ”因子 分 析 与 主 成 分 分 析 比 较 


主 成 分 分 析 和 因子 分 析 有 很 多 类 似 之 处 ， 这 也 是 二 者 容易 混淆 的 原因 之 一 。 从 过 程 上 看 ， 无 论 是 主 成 分 分 析 还 是 因子 分 析 都 会 试图 “ 降 维 ” ， 即 找到 数量 较 少 的 新 的 变量 来 对 数据 进行 分 析 。 不 同 的 
， 对 主 成 分 分 析 而 言 ， 找 到 个 数 减少 的 变量 后 ， 分 析 也 随 之 结束 了 ; 而 对 因子 分 析 而 言 ，“ 降 维 ” 仪 仪 是 一 个 过 程 ， 最 终 目 的 是 找 出 能 解释 原始 变量 的 公共 因子 和 特殊 因子 。 这 就 是 主 成 分 分 析 和 因子 分 
析 最 大 的 不 同 。 从 这 个 角度 看 ， 因 子 分 析 是 主 成 分 分 析 的 推广 。 


除 此 之 外 ， 主 成 分 分 析 和 因子 分 析 还 有 如 下 不 同 : 
子 分 析 中 ， 原 始 变量 表示 成 各 个 因子 的 线性 组 合 ; 主 成 分 分 析 则 是 把 主 成 分 表示 成 各 个 原始 变量 的 线性 组 合 。 
“ 主 成 分 分 析 不 需要 假设 ， 而 因子 分 析 则 需要 一 些 假 设 条 件 。 因 子 分 析 的 假设 包括 : 各 个 公共 因子 不 相关 、 特 殊 因子 不 相关 、 公 共 因 子 和 特殊 因子 不 相关 等 。 
“ 在 主 成 分 分 析 中 ， 当 给 定 的 相关 系数 矩阵 或 者 协 方差 矩阵 的 特征 值 唯一 时 ， 主 成 分 一 般 是 固定 的 ; 而 在 因子 分 析 中 ， 因 子 不 是 固定 的 ， 通 过 旋转 可 以 得 到 不 同 的 因子 。 
由 于 初学 者 容易 混淆 二 者 ， 下 面 举 一 些 例子 来 说 明 二 者 的 区 别 ， 如 表 12.4 所 示 。 
表 12.4 主 成 分 分 析 与 因子 分 析 的 适用 情 
研究 背景 注 解 
通过 对 8 个 文理 科目 成 绩 分 析 ， 人 研究 人 员 发 现 每 个 各 目的 
分 析 某 学 校 学 生 的 成 绩 因子 分 析 成 绩 都 可 以 : 示 成 为 两 个 公共 因子 (可 以 理解 为 “数学 智商 ” 
和 “语言 借 疝 ”) 和 一 个 特殊 因子 之 和 
通过 对 20 个 变量 进行 主 成 分 分 析 ， 我们 发 现 3 个 主 成 分 解 
释 了 原始 数据 中 的 绝 大 多 数 变 异 。 和 第 一 个 主 成 分 反 映 人 的 肥 
成 分 分 析 胖 ， 第 二 个 主 成 分 反映 人 的 身高 ， 第 三 个 主 成 分 的 实际 意义 不 
明明 。 这 里 我 们 虽然 解释 了 主 成 分 的 意义 ， 但 是 变量 和 主 成 分 
之 间 并 无 因果 关系 


服装 厂 一 组 数据 包含 随机 抽取 
的 100 个 青年 的 身长 、 坐 高 、 胸 
围 、 头 高 、 裤 长 、 下 档 、 手 长 、 


AT BY 手 大 一 mp 划一 | 一 | 全 个 ES 
疯 用 |、 六 胸 、 后 育 等 20 个 变量 





国内 某 篮球 联赛 开始 前 ， 共 有 
20 ye 新 闻 机 构 及 博彩 公司 
对 17 支 球 队 进 行 了 排名 预测 

为 了 wid [ 某 地 区 蔬菜 价格 波动 
情况 ， [ 商 管理 部 门 调查 了 
1 二 家 gy 市 场 的 5 种 最 常见 的 
蔬菜 的 价格 


通过 对 原始 数据 进行 主 成 分 分 析 ， 我们 将 20 个 变量 用 一 个 
E 成 分 来 “代替 ”， 简 化 了 数据 分 析 


妃 全 的 种 类 很 多 ， 为 了 调查 蔬菜 的 价格 ， 假 设 这 里 有 一 种 虚 
拟 商 品 ， 称 为 “蔬菜 ”-。“ 蔬 菜 ” 价 格 就 是 从 $ 种 最 稼 见 的 蔬 沫 
中 提取 出 来 的 公共 因子 。 市 场 上 的 每 一 种 蔬菜 价格 都 可 以 表示 
成 “ 蔬 业 ”的 价格 (公共 因子 ) 加 一 个 值 (特殊 因子 ) 


因子 分 析 





总 之 ， 在 判断 是 使 用 因子 分 析 还 是 主 成 分 分 析 时 ， 可 以 结合 分 析 的 具体 目的 来 考量 : 如 果 分 析 目 的 仅仅 是 为 了 减少 分 析 变 量 的 个 数 ， 那 么 可 以 采用 主 成 分 分 析 ; 否则 ， 可 以 考虑 因子 分 析 ， 因 子 分 析 的 
公共 因子 通常 有 着 非常 现实 的 意义 。 


12.4 使 用 3As 实 现 因子 分 析 


使 用 PROC FACTOR 对 数据 进行 因子 分 析 时 ， 其 输入 可 以 是 原始 数据 集 、 相 关系 数 和 矩阵、 协 方差 矩阵 ， 还 可 以 是 得 分 系数 矩阵 。 因 子 载荷 的 计算 方法 包括 主 成 分 法 、 极 大 似 然 法 、a 因 子 分析 和 未 加 权 
的 最 小 二 乘 因子 分 析 法 等 。 因 子 旋转 的 方法 涵盖 正 交 旋转 与 斜 交 选择 。 此 外 ，PROC FACTOR 的 输出 也 很 丰富 ， 有 相关 矩阵、 方差 等 常见 的 统计 量 ， 还 有 特征 值 、 特 征 根 以 及 因子 解释 的 比例 ， 甚 至 包括 陡 
坡 图 等 图 形 的 输出 。 


默认 情况 下 ，PROC FACTOR 会 对 输入 数据 集 进行 主 成 分 分 析 ， 因 此 ， 若 想 要 使 用 PROC FACTOR 进 行 因子 分 析 ， 必 须 为 进行 分 析 的 每 个 变量 设置 一 个 共性 方差 值 。 过 程 步 PROC FACTOR 的 一 般 形式 
如 下 : 





PROC FACTOR< 选 项 >，; 
VAR 变 量 ， 

PRIORS 共 性 方差 ; 

PARTIAL 变量 ; 






































RUN 





其 中 : 
. 语句 PROC FACTOR 中 涉及 的 常见 选项 如 表 12.5 所 示 。 
* PRIORS 语 名 指定 VAR 语 名 中 变量 的 共性 方差 值 。 
:PARTIAL 语句 指 定 分 析 中 使 用 偏 相关 系数 矩阵 或 者 协 方差 矩阵 (Partial Cottelation or Covatiance Matrix) 的 变量 。 
FREQ 语句 指定 原始 数据 集 的 某 个 变量 ,该 变量 值 为 对 应 观测 的 频数 。 假 设 某 条 观测 对 应 的 频数 为 Kk， 那么 分 析 时 ，PROC FACTOR 会 假定 该 观测 在 数据 集中 总 共 出 现 了 k 次 。 


: BY 语句 指定 分 组 变量 。PROC PRINCOMP 会 根据 BY 语句 中 的 变量 对 原 数 据 进 行 分 组 分 析 。 若 BY 语句 中 的 变量 多 于 一 个 ， 那 么 仅 最 后 一 个 变量 起 作用 。 使 用 BY 语句 时 要 求 数据 已 按照 BY 语句 中 变量 的 
顺序 排序 。 


表 12.5 PROC FACTOR 语 和 句 常见 的 选项 列表 


选项 类 别 含义 及 说 明 
指定 用 于 因子 分 析 的 输入 数据 集 。 该 数据 集 可 以 是 原始 数据 集 ， 也 可 以 
DATA= 是 协 方差 矩阵 、 相 关系 数 矩 阵 或 得 分 系数 窍 阵 等 非 原始 数据 集 。 如 果 数 气 
数据 输入 与 输出 集 是 非 原 始 数据 集 ， 数 据 集 的 类 型 必须 加 以 定义 
指定 因子 分 析 的 输出 数据 集 ， 该 数据 集 包含 原始 数据 集 以 及 公共 因子 等 
OUTSTAT= 指定 输出 数据 集 所 包含 的 统计 量 
i 指定 使 用 协 方差 矩阵 进行 因子 提取 ， 该 选项 仅 可 以 与 以 下 几 种 方法 配合 
使 用 : PRINCIPAL、PRINIT、ULS 和 IMAGE 
指定 用 于 因子 载 何 计算 的 方法 ， 稼 用 的 有 PRINCIPAL ( 主 成 分 法 ) 和 
ee 站 是 用 于 因 载 傈 计算 的 方法 ,常用 的 有 蕊 分 j 
ML ( 极 大 似 然 法 ) 
因子 提取 一 £ = 一 “二 人 pr ps iv £ Y SA [mm| -To 
pr 从 因子 模型 的 性 质 决 定 了 其 值 是 介 于 0 到 1 之 间 的 , 但 迭代 过 程 中 可 能 
出 现 大 于 1 的 情形 。 该 选项 在 公 因 子 方差 大 于 1 时 ， 人 允许 迭代 继续 
规定 先 验 公 因 子 方差 的 佑 计 方法 ， 其 值 主要 有 : 1、MAX (最 大 绝对 系数 ) 
PRIORS= ee 
和 SMC (多 元 相关 系数 的 平方 ) 
( 续 ) 
选项 类 别 含义 及 说 明 
因子 个 数 以 及 收 | NFACTORS= 指定 保留 公 因 子 个 数 ， 默 认 PROC FACTOR 仅 保 留 特 征 值 大 于 1 的 公 因 子 
敛 准则 MINEIGEN 规定 被 保留 因子 的 最 小 特征 值 
a 指定 用 于 因子 旋转 的 方法 ,常用 的 有 VARIMAX 和 PROMAX。 二 者 分 别 
因子 旋转 方法 ROTATE= AN a 
对 应 于 12.3.2 六 因子 旋转 中 介绍 的 方差 最 大 正 交 旋转 方法 和 PROMAX 法 
SCORE 打印 模型 中 的 因子 得 分 
Oe SCREE 输出 陡坡 图 
其 他 输出 一 加 es 
输出 因子 模式 图 ， 可 以 指定 未 旋转 、 旋 转 过 程 中 以 及 最 终 经 过 旋转 后 的 
MIS ei 
因子 模式 图 


例 12.3: 使 用 PROC FACTOR 对 sashelp.cars 中 的 变量 MPG City、MPG Highway、Weight、Wheelbase 及 Length 进 行 因子 分 析 。 


为 了 使 用 PROC FACTOR 进 行 因子 分 析 ， 需 要 对 PRIORS 进 行 设 定 ， 可 以 将 其 值 设 为 SMC。 至 于 因子 旋转 方法 ， 这 里 考虑 使 用 方差 最 大 正 交 旋转 方法 。 示 例 代 码 如 下 : 








proc factor data=sashelp.cars corr priors=smc rotate=varimax; 
Var MPG City MPG Highway Weight Wheelbase Length; 
run; 














渝 出 结果 包括 3 个 部 分 : 基本 统计 量 、 初 始 因子 解 和 旋转 因子 解 。 下 面 结合 代码 逐一 分 析 。 在 基本 统计 量 部 分 ， 由 于 关键 字 CORR 的 使 用 ，PROC FACTOR 输 出 了 相关 和 矩 了 嘿 。 整 个 基本 统计 量 输出 如 图 
12.14 所 示 。 


相关 性 
MPG_Gity MPG_ Highway Wergeht ‘Wheelbase | Length 


MPG_City | WPG CCity) 1. 00000 0. 94102 | -0.73797 | -0.50728 | -0. 50153 | 
PG _ Highway MPG (Highway) 0. 94102 1. 00000 | =0. 19099 -0. B2466 | =0. 46609 
We neht Weieht tLBS) =0. 121917 =0. 70099 | 1. 00000 0. T6070 1 0. 69002 
Wheelbase |Wheelbase (IN} | -0.50728 -0.52466 | 0.76070 1.00000 0.88919 
Length | Leneth (IN) -0. 50153 -0. 46608 日. 69002 0. 88919 | 1.00000 


图 12.14 PROCFACITOR 输 出 的 相关 算 阵 


代码 中 ， 指 定 了 PRIORS 为 SMC。 对 应 这 部 分 的 输出 如 图 12.15 所 示 。 


先 验 公园 子 方差 估计 - SMC 
MPG Grity WG Highway Wer Eht Wheelbase | 
0. B99388d46 0. 91802705 0Q. T9406989 | 0 84047107 0 81514932 


缩减 相关 和 矩阵 的 特征 值 : 总 计 = 4. 26709569 平均 值 
= 0. 85341914 


特征 值 差 值 比例 | 。 累积 


] 3, 58285040 2. B0091535 0.8396 0.8396 
2 0, i18181505 0. 141937119 0. 1832 | 1.0229 
本 0, 03393186 0. 08652 194 0.0080 | 1.d308 
4 -. 05259008 0. 02638747 -0.0123 1.0185 
可 -. O7897156 -0.0185 1.0000 


图 12.15 ”选项 PRIORS= 的 部 分 输出 


其 余部 分 是 有 关 因 子 模式 的 输出 。 旋 转 前 后 因子 对 比如 图 12.16 所 示 。 





因 于 樟 式 旋转 因子 神 式 
Factorl Factor? | Factor1 Factor2 
MPG_City MPG CCity) -0. 85329 | 0. 41984 MPG City NPG (City) / 0. 90813 | -0. 28225 
MPG Hieghway | MPG (Highway) | 一 0 86706 | 0. 43988 PE Hiehway NPG (Highway) 电 : 27718 
Weneht | We ight (LBS; 0. 89251 | 0.00748 LL Weight (LBS) -0. 64265 | 0. 61938 
Wheelbase Wheelbase 《ID 0.82708 | 0. 44422 Wheelbase Wheelbase (CIN) -0. 29472| 0.89137 
Leneth | Lensth (CIM) D0. T8887 | 0. 46339 Leneth Leneth (IMN) =0. 25381 
每 个 因子 说 明 的 方差 每 个 因子 说 明 的 方差 
Faetorl | Factor2 Factorl | Factor2 
49. 5828504 0. 78187651 a. 256574325 2.1072930 
最 终 的 公 因 子 方差 估计 - 总 计 = 4- 364725 最 终 的 公 因 子 方差 估计 : 总 计 = 4. 364725 
MPG@_City MP _Hiehway Weight Wheelbase Leneth MPG_City MPG_Highway Weieght Wheelbase Length 
0. 90436399 0.94527907 | 0. 79663529 | 0.88139792 0.83704917 |0.90436399 | 0.94527907 | 0.79663529 | 0. 88139792 | 0 .83704917 


图 12.16 ”旋转 前 后 因子 对 比 


由 于 我 们 采用 的 是 方差 最 大 正 交 旋转 方法 ， 因 此 旋转 后 的 因子 仍然 为 正 交 。 从 图 12.16 中 可 以 看 出 ， 在 旋转 前 ， 除 了 变量 Weight， 其 余 变 量 在 Factor1 和 Factor2 上 均 有 和 载荷， 而 且 载 荷 明 显 ; 经 过 旋转 
后 ， 除 了 变量 Weight， 其 余 变 量 则 均 在 某 一 因子 上 有 高 载荷 ， 而 在 另 一 因子 上 的 载荷 低 (这 正 是 我 们 希望 看 到 的 ) 。 


遗憾 的 是 ， 本 例 中 变量 Weight 在 两 个 公共 因子 上 的 载荷 相当 ， 因 此 ， 可 以 把 Weight 归 入 公共 因子 Factor1 中 ， 当 然 也 可 以 考虑 归 入 Factor2。 公 共 因 子 Factor1 包 含 两 个 高 载荷 的 变量 MPG_City 和 
MPG Highway， 它 们 均 摘 述 的 是 油耗 方面 的 信息 ， 因 此 ， 可 以 将 公共 因子 Factor1 解 释 为 “ 整 车 油耗 ”。 同 理 ， 通 过 对 Factor2 高 载荷 变量 的 研究 ， 可 以 将 公共 因子 Factor2 解 释 成 “ 整 车 舒适 性 ” (变量 
Wheelbase 和 变量 Length 反 映 是 车 内 空间 大 小 ， 变 量 Weight 取 值 越 大 的 车 子 驾驶 起 来 越 稳 定 ， 三 者 从 不 同 角度 解释 了 车 子 的 舒适 性 ) 。 

需要 注意 的 是 ， 采 用 不 同 的 方法 得 出 的 公共 因子 结构 可 能 不 一 样 。 即 使 是 同样 的 公共 因子 ， 由 于 人 的 主观 因素 ， 解 释 的 结果 也 可 能 不 一 样 。 但 是 ， 只 要 解释 合理 ， 分 析 结 果 就 是 合理 的 。 


在 12.3.2 节 中 提 及 了 找 出 公共 因子 可 能 不 是 分 析 的 最 终 目 的 。 在 找 出 公共 因子 后 ， 我 们 可 以 对 数据 集中 的 观测 进行 得 分 计算 ( 即 确定 因子 得 分 ) 。 因 子 得 分 计算 可 以 通过 在 PROC FACTOR 语 句 中 指定 
NFACTORS= 选 项 和 OUT= 选 项 来 实现 ; 或 者 使 用 过 程 步 PROC SCORE 来 间接 实现 。PROC SCORE 的 一 般 形式 如 下 : 





PROC SCORE 30 
VAR 变量 
RUN; 








其 中 : 


DATA= 指 定 用 于 计算 得 分 的 原始 数据 集 。 
. PROC SCORE 语 和 句 中 常见 的 选项 有 : OUT= 指 定 输出 数据 集 ，SCORE= 指 定 包含 因子 得 分 系数 的 数据 集 。 
. VAR 语 名 指定 原始 数据 集中 用 于 计算 得 分 的 变量 。 


在 下 面 的 例子 中 ， 使 用 SCORE 过 程 间接 实现 了 对 FACTOR 过 程 的 因子 得 分 计算 。 
例 12.4: 使 用 PROC FACTOR， 根 据 数据 sashelp.cars 进 行 公 因子 提取 与 因子 得 分 计算 。 


在 下 面 的 代码 中 ， 首 先 使 用 PROC FACTOR 对 数据 进行 公 因子 的 提取 、 旋 转 ， 并 将 各 种 统计 量 包 括 因子 得 分 系数 输出 到 数据 集 work.fact cars 中 ; 接 下 来 ， 利 用 PROC SCORE， 根 据 work.fact_cars 对 
原始 数据 集 观测 进行 得 分 计算 ， 并 最 终 将 结果 输出 到 数据 集 work.Fscore。 





proc factor data=sashelp.cars 

priors=smc 

rotate=varimax 

outstat=work.fact cars score; 

var MPG City MPG Highway Weight Wheelbase Length; 
run; 加 加 
proc Score data = sashelp.cars 

score=work.fact cars out=work.Fscore; 








var MPG City MPG Highway Weight Wheelbase Length; 
PUN? 





上 述 代码 中 PROC FACTOR 部 分 的 输出 结果 与 例 12.3 几 乎 一样， 这 里 不 重复 解释 。 数 据 集 work.fact_cars 如 图 12.17 所 示 。 


Be | ee MPG Ee 
|e mn ele pe he 


MPG_City 
MPG _Highway 
Walaght 

Length 


| PATTERN Factori 


Factor2 


D03410205153 
D007283806 
-0.01526414 

0.3043639945 

0. 的 33883618 

35828503991 

0.4198363714 
-0.725810781 

0.6878944039 

0.3081291471 
0282250681 

0.364884943/ 

0.1043940432 


26. 843457344 
5.741200717 
428 

人 9410205153 


2357 
1598.98321461 
428 

人 0737365398 
.730303496 
1 
0.7607027589 
0.6300207109 
0.7366352313 


?0.7340598307 
0.0339378625 


0.8925123487 


9 0.0074784774 


0277176768 
0.7217184993 
0.2611171502 


图 12.17 


0 .642651117 
0.6193826224 
0021935 


108.15420561 
8.3118129911 
428 
.507283806 
-0.524660638 
1 
0.8891946669 
0.881397923 
0.8404710737 
-0.052590076 
0.8270804571 
0.4442249886 


.2234 724028 


186 36214353 
14.357991257 
428 

人 0501526414 
.4665091763 
0.6300207103 
0.8891946669 
1 


均值 、 方 差 和 观 
测 数 


相 和 天 系数 炬 阵 


0.8370491742 一 w 疫 终 共性 方差 
0.8151493163 一 上 先 验 共性 方差 
人 0.078977549 一 * 特征 值 


| 未 旋转 因子 模 或 


0.8913673037 0.8 


0.172140818 


0.5679881931 


数据 集 Work.Fact_cars 





最 终 ， 通 过 SCORE 过 程 计 算出 的 得 分 数据 集 work.Fscore 的 部 分 结果 如 图 12.18 所 示 。 


从 数据 集 work.Fscore 可 以 读 出 原始 数据 集 每 
据 集 。 


条 观测 在 公共 因子 FACTOR1 和 FACTOR2 上 面 的 得 分 。 与 主 成 分 得 分 一 样 ， 上 述 数 据 集中 之 所 以 会 出 现 负 分 ， 是 因为 计算 得 分 使 用 的 是 标准 化 后 的 原始 数 


EC 


ee Type $ 2dr 
TS 4dr 

TL 4 

35 RL Adr 





3.5 RL w/Navigation ddr 
NSX coupe 2dr manual S 
Pd 1.8T 4dr 

AA1.8T corvertible adr 
Ad4 3.0 4dr 

Pd 43.0 uattro 4dr manual 
Ad 4.0 Quattro 4dr auto 
A6 3.0 4dr 


图 12.18 ”得 分 数据 集 wotk.Fscore 部 分 结果 


12.5 “本章 小 结 


主 成 分 分 析 可 以 用 来 对 复杂 数据 进行 降 维 分 析 ; 因子 分 析 可 以 找 出 隐藏 在 众多 变量 后 的 公共 因子 。 公 共 因 子 一 般 有 着 现实 意义 ， 


目的 确定 是 选择 主 成 分 分 析 还 是 因子 分 析 。 无 论 采 用 哪 一 种 分 析 方 法 都 应 该 结合 原 数据 集 的 背景 和 特征 考虑 。 


聚 类 分 析 的 目的 就 是 将 所 关心 的 对 象 按照 一 定 的 规则 或 标准 分 成 不 同 的 类 别 ， 以 便 有 针对 性 地 进行 进一步 有 效 的 处 理 。 从 技术 和 数据 的 角度 讲 ， 聚 类 


进行 分 类 。 在 进行 聚 类 分 析 之 前 ， 往 往 不 知道 所 考察 的 对 象 会 存在 哪些 类 别 。 








0 39365 
0.34207568 
0.1348524 
D0273714 

0.83615 
0.3154156 
O45872 
D00086714 

.47003 
0.527544 
0.0843/28 


共 因子 可 以 用 来 对 数据 中 的 观测 进行 得 分 计算 。 读 者 可 以 根据 分 析 的 


分 析 就 是 利用 数理 统计 的 方法 对 数据 的 变量 或 观测 


聚 类 分 析 广 泛 应 用 于 服务 业 、 生 物 、 人 口 统计 学 等 领域 。 在 服务 业 ， 聚 类 分 析 用 来 分 析 、 发 现 不 同 的 客户 群 ， 并 刻画 出 不 同 客户 群 的 特征 ; 在 生物 学 上 ， 聚 类 分 析 用 来 对 新 发 现 的 物种 进行 属性 的 归 
类 ; 在 人 口 统计 学 上 ， 分 析 人 员 利 用 聚 类 分 析 对 地 域 进行 划分 ， 进 而 对 不 同类 型 的 地 域 制定 出 合适 的 政策 。 此 外 ， 聚 类 分 析 还 被 成 功 应 用 于 其 他 算法 的 预 处 理 步 又: 待 聚 类 结果 产生 后 ， 再 将 其 他 算法 应 用 


于 每 个 艇 上 。 


类 大 致 可 以 分 为 以 下 两 类 : 
. 模糊 聚 类 (Fuzzy Clustering or Soft Clustering) 


. 非 模糊 聚 类 (Hard Clustering) 


在 非 模糊 聚 类 中 ， 对 象 与 类 的 从 属 关 系 都 是 确定 的 : 属于 或 者 不 属于 。 在 模糊 聚 类 中 对 象 与 类 的 从 属 关 系 则 是 有 一 定 的 概率 的 。 本 章 考虑 的 是 非 模糊 聚 类 且 聚 类 对 象 为 离散 的 情况 ， 也 称 离散 聚 


(Discrete Clustering) 。 


13.1.1 聚 类 分 析 方 法 介绍 与 比较 
常见 的 聚 类 分 析 方 法 有 以 下 两 种 : 
“ 层次 法 (Hierarchical Clustering) 


划分 法 (Partitive Clusteting) 


其 中 ， 层 次 法 又 可 分 为 : 凝聚 式 (Agglomerative) 和 分 裂 式 (Divisive) 。 凝 聚 式 层次 法 指 的 是 先 将 每 个 观测 都 归 为 一 类 ， 然 后 每 次 都 将 最 相似 的 两 个 类 合并 成 一 个 新 的 类 ， 直 至 所 有 的 观测 成 为 一 类 
或 者 达到 所 预定 的 分 类 条 件 为 止 ， 反之， 分 裂 式 层次 法 在 聚 类 开始 时 就 会 将 所 有 观测 归 为 一 类 ， 接 下 来 每 次 都 把 现 有 的 类 别 按照 相似 程度 一 分 为 二 ， 直 至 每 一 观测 都 各 自 成 为 一 类 或 者 达到 所 预定 的 分 类 条 


件 为 止 。SAs 中 的 层次 法 都 是 凝聚 式 。 因 此 ， 除 非特 别 说 明 ， 本 章 中 的 层次 法 均 指 凝 聚 式 层次 法 。 


划分 法 是 指 在 开始 阶段 指定 某 几 个 类 中 心 ， 接 下 来 通过 计算 将 每 个 观测 暂时 归 到 距离 其 最 近 的 类 中 心 所 在 的 类 ， 并 且 不 断 调整 类 中 心 直 至 收敛 。 表 13.1 对 层次 法 和 划分 法 进行 了 对 比 。 


表 13.1 划分 法 与 层次 法 的 对 比 


优点 / 适用 的 情形 缺 点 
别 效 有 


口 需要 提前 输入 类 ! 
口 需要 提前 指定 K 个 六 给 ci 的 中 心 ， 因 此 ， 结 果 往 往 与 种 子 的 选择 、 观 测 
在 数据 集中 的 顺序 等 因 系 有 关 。 不 同 的 种 子 、 不 同 顺 友 的 (同一 ) 数据 


集聚 类 的 结果 往往 也 不 ee 











则 分 法 适用 于 观测 数 比 较 多 
“| 的 情形 口 该 方法 一 般 用 于 观测 数目 较 多 的 情形 。 由 于 聚 类 可 能 的 组 合 会 随 看 观测 
数目 的 增加 迅速 增加 ， 因 此 ， 一 般 没 有 办 法 知道 哪 一 种 组 合 是 最 优 的 
口 一 般 假设 类 的 形状 为 超 球面 (Hyper Spherical Shape， 圆 与 球面 分 别 是 低 
维 空间 上 超 球面 的 特例 ) 
不 需要 输入 类 别 数 ,| 口 不 断 将 观测 合 二 为 一 ， 在 这 个 过 程 中 ， 不 恰当 的 合并 会 一 二 延 续 至 结束 
层次 法 ”| 适用 于 观测 数 比 较 少 的 | 口 算法 很 多 ， 不 同 的 算法 间 各 有 优 缺 点 ， 没 有 哪 种 方法 是 最 有 效 的 
情形 口 不 适合 于 观测 数 较 多 的 情形 
衡量 一 个 聚 类 分 析 方 法 的 好 坏 主要 有 以 下 两 个 方面 : 


. 在 同一 类 别 的 内 部 ， 对 象 是 否 具有 高 度 的 相似 性 。 


.不同 类别 的 对 象 间 是 否 几乎 不 具有 相似 性 。 


13.1.2 ”相似 性 的 度量 
前 面 介绍 了 如 何 衡量 一 个 聚 类 方法 ， 其 中 涉及 一 个 核心 的 问题 : 如 何 度量 两 个 对 象 间 的 相似 性 。 一 般 情况 下 ， 使 用 距离 函数 d (x，y) 来 表示 对 象 x 与 y 间 的 距离 ， 其 值 越 小 表示 对 象 越 相 似 。 对 于 同一 组 


研究 对 象 ， 定 义 距离 的 方法 可 以 有 很 多 。 例 如 ， 把 一 副 52 张 (不 含 大 小 王 ) 的 扑克 牌 进行 分 类 ， 我 们 可 以 定义 以 下 两 种 距离 : 


: 距离 一 : 根据 牌 面 上 的 花色 定义 ， 同 一 花色 的 牌 之 间 的 距离 为 0， 不 同 花 色 牌 之 间 的 距离 为 1。 
: 距离 二 : 根据 牌 面 上 数值 的 大 小 (对 应 1~13) 之 差 来 定义 。 


当然 ， 读 者 还 可 以 定义 出 更 多 的 距离 。 虽 然 ， 距 离 定 义 的 方法 很 多 ， 距 离 定义 的 合理 与 否 从 根本 上 决定 了 聚 类 分 析 的 效果 。 


通常 ， 一 个 好 的 距离 定义 一 般 满足 以 下 4 个 条 件 (这 里 x、y 和 lz 均 表 示 对 象 )。 
“ 具有 对 称 性 : d (x, y) =d (y，Xx) 

“ 若 x 去 y， 则 d (x, y) >0 

. 若 x=y， 那 么 d (x, y) =0 

“三角 不 等 式 : d (x, y) <d (x, 2z) +d (z, y) 


: 若 x 和 和 y 是 两 个 不 同 的 对 象 ， 则 它们 之 间距 离 应 该 大 于 0， 反 之 ， 如 果 它 们 是 相同 


上 述 第 一 个 条 件 可 以 简单 地 理解 为 对 象 x 与 对 象 y 的 相似 程度 应 该 等 于 对 象 y 与 对 象 x 的 相似 程度 ， 接 下 来 两 个 条 件 指 的 是 
< 能 是 直线 ， 而 不 能 是 不 规则 的 曲线 。 


的 对 象 ， 那 么 距离 应 该 是 0; 最 后 一 个 条 件 “ 三 角 不 等 式 ” 的 作用 是 从 数学 的 角度 把 度量 限制 在 欧式 空间 ， 通 俗 地 说 ， 对 象 x 与 y 之 间 的 距离 只 


需要 注意 的 是 ， 实 际 中 也 有 一 些 常见 的 、 好 的 距离 度量 并 不 完全 满足 上 述 4 点 。 在 定义 距离 时 应 该 结合 实际 研究 问题 的 背景 


常见 的 距离 函数 有 以 下 这 些 : 
. 街区 距离 (City Block Distance) 
. 欧式 距离 (Euclidean Distance) 
“ 闵可夫 斯 基 距 离 (Minkowski Distance) 


汉 明 距离 〈Hamming Distance ) 
.…， yk) 的 街区 距离 是 以 线段 xy 为 冬 边 的 直角 三 角形 的 两 直角 边 的 距离 和 ， 其 公式 如 下 : 


k 
az) = Sys 
I= 


两 点 x= (Xx1, X2, ..., Xk) 和 y= (y1, y2 


欧式 距离 是 勾 股 定理 在 多 维 空间 的 一 个 推广 。 其 一 般 形式 下 的 公式 如 下 : 


k 
d(x,y) = | 9 (7: - %) 





闵可夫 斯 基 距 离 公式 如 下 : 
是 


k 
EY 


其 中 ， 入 的 值 为 正 数 。 街 区 距离 和 欧式 距离 都 是 闵可夫 斯 基 距 离 的 特殊 形式 ， 二 者 分 别 对 应 和 值 为 {和 2 的 情况 。 


上 述 距离 都 是 用 来 处 理 连 续 变 量 的 。 汉 明 距 离 则 是 常见 的 用 来 度量 离散 变量 的 距离 之 一 。 两 个 离散 变量 间 的 汉 明 距离 定义 为 两 个 变量 对 应 位 置 的 值 不 同 的 个 数 。 
假设 x= (0，1,1, 0, 0, 1) ，y= (0，0,，1，1，0，1) 。 在 这 种 情况 下 ，x 和 y 共 有 2 个 位 置 的 值 不 一 样 ， 那 么 x 和 y 间 的 汉 明 距离 为 2。 


SAS 人 允许 用 户 自 定义 距离 函数 ， 经 距离 遂 数 计算 出 的 结果 (SAS 数据 集 ) 可 以 作为 其 他 聚 类 分 析 过 程 的 输入 数据 使 用 。 除 用 户 自 定义 的 距离 浮 数 外 ， 过 程 DISTANCE 提 供 了 多 种 计算 数据 集 观测 间距 离 的 
方法 ， 其 一 般 形式 如 下 : 








STANCE< 选 项 >; 
BY 变量 











上 且 . 














VARLEVEL (变量 </ 选 项 >) ; 
WEIGHT 变 量 ， 























RUN; 





其 中 : 
` PROC DISTANCE 语 和 句 中 常见 的 选项 有 : DATA= (输入 数据 集 ) ，OUT= (输出 数据 集 ) ，METHOD= (计算 方法 ) 。 
" PROC DISTANCE 根 据 BY 语 句 指定 的 变量 对 每 组 观测 做 独立 的 分 析 ， 使 用 该 语句 的 前 提 是 数据 集 已 经 按照 BY 语句 中 的 变量 排序 。 
COPY 语句 指 定 了 从 输入 数据 集中 复制 到 输出 数据 集 的 变量 。 
. FREQ 语 多 中 的 变量 对 距离 的 计算 结果 无 直接 影响 ， 其 作用 是 标准 化 变量 或 者 用 来 对 顺序 变量 赋值 。 如 果 FREQ 是 用 来 标准 化 变量 的 ， 那 么 变量 值 代 表 观 测 出 现 的 频数 。 
.ID 指定 输出 数据 集中 作为 ID 的 变量 。 


. VAR 语 和 句 中 LEVEL 关 键 字 的 可 能 取 值 如 下 : 非 对 称 型 的 名 称 变量 (ANOMINAL) 、 名 称 变量 (NOMINAL) 、 顺 序 变 量 (ORDINAL) 、 等 距 变 量 (INTERVAL) 、 比 率 变 量 (RATIO) 。 选 项 可 以 


是 : ABSENT=、MISSING=、ORDER=、STD=、WEIGHTS= 等 。 


` WEIGHT 语 和 句 指定 输入 数据 集中 的 某 个 数值 变量 为 观测 的 权重 ， 该 语句 在 计算 距离 中 不 起 作用 ,但 是 会 在 标准 化 变量 过 程 中 起 作用 。 


需要 注意 的 是 ， 上 述 VAR 语 句 中 WEIGHTS= 选 项 和 语句 “WEIGHT 变 量 ; 
用 于 特定 类 型 的 变量 。 


”的 作用 是 不 一 样 的 。 前 者 是 一 个 选项 ， 用 来 对 变量 进行 加 权 ; 后 者 用 来 对 观测 进行 加 权 。 此 外 ， 某 种 距离 计算 方法 往往 仅 适 
因此 ， 在 进行 距离 计算 前 ， 应 该 考虑 所 分 析 变 量 的 类 型 。 有 关 变 量 类 型 的 介绍 参见 第 9 章 。 


例 13.1: 数据 集 work.stock 包 含 了 10 只 股票 价格 ， 以 及 它们 在 2010 年 至 2013 年 间 的 投资 收益 率 (每 百 元 ) 。 


首先 根据 数据 集 work.stock 中 的 信息 计算 出 每 两 只 股票 间 的 距离 ， 然 后 将 其 结果 作为 输入 参数 之 一 进行 聚 类 分 析 。 以 下 代码 仅 实 现 了 距离 计算 ， 有 关 利用 距离 作为 输入 进行 聚 类 分 析 的 部 分 见 本 章 后 面 
的 内 容 。 





data work.stock; 

title'Stock Dividends'; 

Jength Stock $3.; 

input Stock $ div 2010 diyv 

datalines; 
S1 8. 
S2 
S3 
S4 
S35 
S6 
S7 
S8 
S9 
S10 














2011 div 2012 div 2013; 
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Noo 吧 心 DOODw，， 

~] ~] ~] ~] ~] ~]~]~]oo oo 
OODoo 必 NIooohF | 


proc distance data=work.stock method=DCORR out=work.distdcorr; 
var interval (div 2010 div 2011 div 2012 div 2013); 
id Stoek:; 

run; 








输出 数据 集 work.distdcorr 如 图 13.1 所 示 。 从 该 数据 集 可 以 读 出 每 两 条 观测 之 间 的 距离 ， 例 如 观测 S2 与 $1 之 间 的 距离 为 0.930192。 


us WTIEWTABLE: Work.Dstdecorr 和 | | : 
| 1 Si 0 l | | | 


0.9301924457 
05764325305 
1.3127343265 
1.2959036309 

Urol0Udydo 
12130146416 
12143918127 
1.1143023711 


13.2 ”划分 法 与 层次 法 


前 面 介绍 并 比较 了 划分 法 与 层次 法 之 间 的 优 务 ， 


0 
0.7024843386 
0.6642559836 

0.629159328 
0.6606043733 
几 1606373114 
0.4468481502 
0.4929450956 
0.3984851503 


0 
1.1508514689 
1.1355840548 
1.1885595801 
ULBey3U47362 
1.0149568655 
1.0728979537 
1.0135811566 


0 
0.0439473972 


图 13.1 


节 介 绍 划 分 与 层次 法 中 最 常见 的 方法 ， 以 及 如 何 利 用 SAS 相 应 的 过 程 步 来 实现 这 些 方 法 。 


13.2.1 


使 用 过 程 FASTCLUS 实 现 K 均 值 聚 类 法 


0 
0.2075280458 0 1877130224 
0.38443oe2b6e O05451022876 0.5411361001 
0.2358297494 01980683649 0.2951763385 
0.2234510694 0.1800494576 0.1939647331 
.401653877 0.3598828397 03050506663 02544905315 0.2504571781 0.1843650387 


0 


数据 集 wotk.stock 中 观测 之 间 的 距离 


0 
0.373278762 
0.3846909575 


0 
0.1197330447 





0 


事实 上 ， 具 体 到 算法 时 ， 无 论 是 划分 法 还 是 层次 法 都 有 很 多 不 同 的 算法 ， 并 且 伴 随 着 人 们 对 聚 类 分 析 研 究 的 不 断 深入 ， 又 不 断 有 新 的 聚 类 方法 出 现 。 本 


划分 法 中 最 常用 的 是 K 均 值 聚 类 法 。K 均 值 聚 类 法 的 一 个 最 重要 特点 是 算法 收敛 的 时 间 是 和 待 分 析 数 据 的 观测 数 成 正比 的 。 正 因为 如 此 ，K 均 值 聚 类 法 可 以 用 来 处 理 规模 较 大 的 数据 。 


K 均 值 聚 类 方法 的 大 体 步 骤 如 下 : 
1) 选 定 K 个 观测 作为 K 类 的 种 子 (Cluster Seed) 。 

2) 读 入 所 有 观测 ， 计 算 每 个 观测 与 K 个 种 子 间 的 距离 ， 并 将 观测 暂时 归 类 到 与 其 距离 最 近 的 种 子 所 在 的 类 中 。 

3) 根据 现 有 类 中 的 观测 ， 重 新 计算 类 的 中 心 ， 即 种 子 。 

4) 重复 第 2~3 步 ， 直 至 收敛 。 至 此 ， 所 有 K 类 的 种 子 最 终 确定 。 

5) 再 次 读 入 所 有 观测 ， 将 每 个 观测 归 类 到 与 其 距离 最 近 的 种 子 所 在 的 类 ， 分 类 结束 。 

这 里 K 值 是 预 估 的 。 对 K 值 的 估计 方法 有 很 多 ， 常 见 的 方法 如 下 : 

* 根据 背景 知识 判断 ， 比 如 ， 知 道 数 据 中 最 多 只 可 能 有 5 类 ， 那 么 KK 值 就 可 以 设置 为 5。 

* 根据 分 类 目标 判断 ， 如 银行 对 客户 进行 营销 时 ， 硕 望 客 户 被 分 成 3~4 类 ， 那 么 KK 值 就 可 以 取 为 3 或 者 4。 

* 作 图 法 ， 根 据 图 像 判 断 出 大 概 的 类 数 。 

` 启发 式 法 ， 先 确定 一 个 比较 大 的 K 值 ， 采 用 茶 个 聚 类 方法 根据 这 个 K 值 对 数据 进行 聚 类 分 析 ， 得 出 一 个 建议 类 数 。 然 后 根据 这 个 建议 类 数 ， 再 进行 聚 类 分 析 直 至 该 K 值 稳定 在 菜 一 常数 为 止 。 
虽然 K 均 值 聚 类 方法 的 计算 几乎 集中 在 第 2~4 步 ， 但 是 第 1 步 对 种 子 的 选择 却 是 至 关 重 要 的 ， 种 子 的 选择 从 根本 上 决定 了 分 类 的 好 坏 。 


SAS 通 过 PROC FASTCLUS 来 实现 K 均 值 聚 类 法 。 默 认 情况 下 ，PROC FASTCLUS 使 用 欧式 距离 来 计算 观测 之 间 的 距离 。 过 程 FASTCLUS 对 种 子 的 选择 可 以 由 用 户 指定 ， 也 可 以 由 过 程 步 在 原始 输入 数据 
集中 选择 。 一 般 来 说 ， 过 程 FASTCLUS 可 以 自动 选 出 “足够 好 ”的 初始 种 子 。 此 外 ，PROC FASTCLUS 具 有 以 下 特点 : 
. 适用 于 分 析 较 大 的 数据 集 ， 一 般 来 说 ， 观 测 数 在 100 条 以 上 。 当 数据 集 较 小 时 ， 过 程 FASTCLUS 对 数据 集中 的 观测 顺序 较为 敏感 ， 即 同一 数据 集 观测 顺 序 的 变化 往往 会 影响 产生 的 结果 。 


. 在 过 程 FASTCLUS 使 用 的 算法 中 ， 方 差 较 大 的 变量 对 分 析 结 果 的 作用 也 比较 大 ， 因 此 ， 在 实际 应 用 中 ， 如 果 数 据 集 变 量 方差 之 间 差 异 较 大 ， 可 以 考虑 先 对 数据 集 进行 标准 化 。 
PROC FASTCLUS 的 一 般 形 式 如 下 : 


其 中 : 
































PROC FASTCLUS DATA = 数据 集 <SEED=> | <MAXC = > | <RADIUS = >| <MAXITER = >|<OUT =>; 
VAR 变 量 ; 
RUN; 





“ 选项 SEED= 指 定 作 为 类 种 子 的 数据 集 ， 该 数据 集 的 变量 必须 和 原始 输入 数据 集 的 变量 相同 。 默 认 情 况 下 ， 过 程 步 使 用 前 几 条 完整 的 数据 作为 类 种 子 。 

` 选项 MAXC= 和 选项 RADIUS= 这 二 者 必须 指定 一 个 。 其 中 ，MAXC 值 是 用 户 允 许 聚 类 分 析 生 成 的 分 类 数目 的 最 大 值 ， 默 认 值 为 100; RADIUS 值 是 更 新 聚 类 种 子 的 阅 值 。 若 种 子 与 前 一 个 种 子 的 距离 大 
于 该 冰 值 ， 则 替换 种 子 。 该 阅 值 的 默认 值 为 0。 

` 选项 MAXITER= 为 重新 计算 种 子 类 的 最 大 迭代 次 数 。 

. 选项 OUT= 指 定 输出 数据 集 ， 该 数据 集 不 仅 包含 原 数据 集中 的 变量 ， 还 包含 新 生成 的 变量 CLUSTER 以 及 Distance to Cluster Seed， 前 一 个 变量 表示 观测 所 属 的 类 ， 后 一 个 变量 表示 当前 观测 与 该 类 中 心 
的 距离 。 

` VAR 语 名 指定 用 来 进行 聚 类 分 析 的 变量 ， 可 以 为 一 个 或 多 个 ， 变 量 必 须 为 数值 型 。 

例 13.2: 数据 集 ex.Food _cal 包 含 102 种 食物 以 及 每 种 食物 的 成 分 ， 如 图 13.2 所 示 。 共 包含 如 下 变量 : Food (食物 名 称 ) 、measure (测量 单位 ) 、weight (重量 ) 、kcal (卡路里 ) 、fat (脂肪 ) 、 
carbo (碳水 化 合 物 合 量 ) 、protein (和 蛋白质) 。 现 在 要 根据 食物 的 卡路里 、 脂 肪 以 及 蛋白 质 ， 采 用 K 均 值 聚 类 法 对 数据 集 ex.Food_cal 进 行 聚 类 分 析 。 
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Lm | 








hh 


图 13.2 ”数据 集 ex.Food_cal 


示例 代码 如 下 : 








proc fastclus data=ex.food cal maxc=5 maxiter=10 out=work.clus; 
var kcal fat protein; 
run; 








下 面 将 具体 分 析 输 出 结果 。 首 先 ， 输 出 结果 展示 的 是 初始 种 子 的 信息 图 ， 如 图 13.3 所 示 。 从 该 图 中 可 以 看 出 : 聚 类 1 的 中 心 为 观测 (10.00000，0.000000，0.000000) 。 可 以 此 类 推 其 他 聚 类 的 中 心 。 


在 如 图 13.4 所 示 的 聚 类 汇总 信息 图 中 ， 可 以 看 到 每 一 类 的 具体 信息 。 例 如 ， 聚 类 1 中 共 含 有 36 个 观测 ，RMS (Root Mean Square， 均 值 平方 根 ) 的 标准 差 为 1.5856， 从 该 聚 类 种 子 到 其 余 观测 的 最 大 
距离 为 4.4002， 距 离 聚 类 1 最 近 的 类 是 聚 类 2， 二 者 之 间 的 距离 为 聚 类 质心 间 的 距离 ， 即 为 148.5。 


接 下 来 的 “变量 的 统计 量 ” 图 则 给 出 了 一 系列 统计 量 ， 如 图 13.5 所 示 。 


此 外 ，PROC FASTCLUS 还 给 出 聚 类 内 部 每 个 变量 的 均值 和 标准 差 ， 如 图 13.6 所 示 。 


FASTCLUS 过 程 
蔡 换 =FULL 尘 餐 =0 最 大 肾炎 =5 最 大 选 代 =10 Converege=0. 02 
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图 13.3” 聚 类 的 初始 种 子 信息 


聚 类 汇总 
















本 类 质心 
最 大 距离 | 超出， 最近 的 卫 类 间 的 距离 










展业 | 频数 RUS 标准 差 

















5 7| 39.1325 86.3586 


图 13.4 聚 类 汇总 信息 图 


变量 的 统计 量 
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近似 期 望 总 体 R 方 = 0.96027 


立方 聚 类 准则 = ] 16. 073 | 


图 13.5 ”变量 的 统计 信息 图 
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60. 78847008 | 26. 47280725 | 14. 07124728 


最 后 ， 输 出 的 数据 集 work.clus 如 图 13.7 所 示 。 从 该 数据 集中 ， 可 以 看 出 每 一 条 观测 所 属 的 具体 的 类 ， 以 及 该 观测 到 该 类 中 心 的 距离 。 例 如 ， 第 1 条 观测 属于 第 1 个 类 ， 该 观测 到 第 1 类 中 心 的 距离 为 
2.1280388584。 
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图 13.7 输出 数据 集 work.clus 


13.2.2 ”使 用 过 程 CLUSTER 实 现 层 次 法 


SAS 共 提供 了 11 种 层次 法 ， 这 些 方法 可 以 通过 指定 PROC CLUSTER 中 的 选项 来 实现 。 过 程 CLUSTER 的 一 般 形 式 为 : 

















PROC CLUSTER DATA= METHOD= < 选项 >; 
VAR 变量 名 ， 
RMSSTD 变量 名 ， 

RUN; 








其 中 : 
DATA= 指 定 输 入 数据 集 ， 上 默认 值 为 最 后 一 次 使 用 过 的 数据 。 


-METHOD= 用 来 指定 做 层次 分 析 的 具体 方法 ， 可 供 选择 的 方法 共有 11 种 ， 相 应 的 SAS 关 键 字 和 对 应 方法 如 表 13.2 所 示 。 该 语句 常见 的 选项 有 : CCC 用 于 输出 CCC (Cubic Clusteting Criterion) 值 ， 该 值 也 
称 三 次 聚 类 准则 或 者 立方 聚 类 条 件 ; PSBEUDO 用 于 输出 伪 F 统 计量 与 伪 T 统 计量 ; RSQUARE 用 于 输出 统计 量 R 方 与 半 偏 R 方 。 


表 13.2 PROC CLUSTER 语句 的 选项 


关键 字 关键 字 聚 类 方法 
AVERAGE | AVE MCQUITTY 法 
CENTROID | CEN 各 眶 二 
COMPLETE | COM 最 长 距离 法 最 短 距 离 法 
DENSITY [DEN ET 
EM 疝 半 平方 和 让 


* VAR 是 用 户 指定 用 来 做 聚 类 分 析 的 数值 变量 名 





* RMSSTD 指 定 了 方 根 标准 方差 变量 。 
在 PROC CLUSTER 中 ， 使 用 不 同 的 方法 其 聚 类 结果 也 会 不 一 样 。 下 面 简要 地 总 结 上 述 方法 的 优 缺 点 。 


一 般 情况 下 ， 在 蒙特 卡 罗 随 机 模拟 方法 中 ， 分 类 效果 比较 好 的 是 “可 变法 ”， 分 类 效果 比较 差 的 是 “MCQUITTY 法 ”和 “最 短 距 离 法 ”。 对 离 群 点 (Outlier， 指 的 是 少数 几 个 点 距离 当前 所 有 的 群 都 比 
较 远 ) 比较 “敏感 ”的 方法 是 “ 离 差 平 方 和 法 ”和 “最 长 距离 法 ”， 对 离 群 点 比较 不 敏感 的 是 “类 平均 法 ”、“ 重 心 法 ”。 此 外 ， 上 述 11 种 方法 中 ， 除 了 “最 大 似 然 法 ”外 ， 其 他 方法 均 支 持 距离 (数据 
集 ) 作为 过 程 步 的 输入 。 


例 13.3: 数据 集 ex.nutrition， 包 含 了 各 种 食物 以 及 它们 的 营养 成 分 ， 如 图 13.8 所 示 。 其 中 共 包 含 5 个 变量 : Food (食物 ) 、percent water (含水 的 百分比 ) 、Protein _g (蛋白 质 含量 ) 、 
Saturate_Fat_g (饱和 脂肪 含量 ) 以 及 Magnesium_mg ( 镁 含量 ) 。 现 在 要 使 用 层次 法 对 数据 集 ex.nutrition 进 行 聚 类 分 析 。 


示例 代码 如 下 : 





proc cluster data=ex.nutrition 
outtree=work.tree 
method=ave ccc pseudo; 
Var Magnesium mg percent water Protein g Saturate Fat 9g; 
id foody 
run; 








下 面 来 解释 PROC CLUSTER 生成 的 各 个 图 表 的 含义 。 首先，PROC CLUSTER 给 出 了 类 平均 聚 类 分 析 图 ， 如 图 13.9 所 示 。 该 图 包含 特征 值 ， 以 及 昧 积 解释 变异 的 比例 。 
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图 13.8 ”数据 集 ex.nuttition 
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图 13.9 ”类 平均 聚 类 分 析 图 


LUSTER 展 示 的 是 聚 类 历史 图 (这 里 只 截取 最 后 15 个 类 的 合并 过 程 ) ， 如 图 13.10 所 示 。 





U. 7173 
0. 22719 
0. 0354 


0 U195 





0.7173 


0. 9451 
0. 9805 
1. 0000 





观测 之 间 的 根 均 方 距 高 ”60. 67581 


聚 者 历 史 


近似 立方 
音 偏 期 望 票 考 人 的 F 伪 Were RMS 
办 类 数 膏 郁 器 这 频数 R 方 R 方 R 方 条件 统计 县 七 方 Distance 结 慎 

16 GL20 (LT 12 0. O048 .08 | a6 16.5 0 20713 
[上 Lard Le 十 吉 6 0.0020 .86 ia0 56.8 D0. 2128 
13 | CL18 L265 9 0.0034 .03 126 | 11.9 0. 218 
12 CL13 Spinaeh raw chopeped 10 0.0025 | . 081 124 | 9.7 0. 2518 
il Blackheyed peas frozen drained Pinto Beans cooked from dry 2 0.0023 ,#78 126 0. 2968 
10 GLI Margarine = Mogular. hard 7 0.0041 .O74 i121 0.9 0D. 3139 
cLi2 16 is 0. 0095 | , #65 I02 Ml.0 0 3225 
@ CL15 Lo 25 0.0278 ,37 65. 了 23.8 v0. 3531 
了 ce Plantains, cooked, boiled, sliced | 26 00143 .023 .880 319 的 5， 6.3 .5701 
下 | GL10 Mar EGr ine Sproad (OW fat) hard O00155. .07 .068 9. 20 Ba dd Td.9 0. Ba3e 
5607 Chieken - Roastad shole 27 0.0286 .878 .827 277 61.4 10.4 0 TM2 
是 Butter = St1ek 6 9 0.0281 | ,50 ,i822 3.11 B63 9,1 0 8071 
人 CL Raisins, seedless 10 0.0330 | .417 .707 4.47 80.6 6.3 0 S954 
2 Cs LL11 29 10.1422 ,675 .6657 2.76 769 38.5 1. 2416 
1 CL3 2 39 0.6752 | . 000 .000 0.00 6.9 1. 4287 | 


图 13.10 ” 聚 类 历史 图 


其 中 ， 第 1 列 显 示 当 前 的 聚 类 数 ， 人 在 最 开始 所 有 的 观测 都 各 自 为 一 类 ， 到 了 最 后 一 步 ， 所 有 的 观测 都 会 归 为 一 类 。 第 2 列 和 第 3 列表 示 的 是 当前 合并 的 聚 类 。 第 4 列 频数 指 的 是 当前 类 包含 的 观测 数 。 第 
5~6 列 为 半 偏 R 方 与 R 方 ， 这 两 个 统计 量 是 用 来 帮助 确定 分 类 个 数 的 : R 方 越 大 表示 类 之 间 区 分 得 越 开 ， 聚 类 效果 越 好 ; 另 一 方面 ， 不 能 以 R 方 的 大 小 简单 地 确定 分 类 个 数 ， 而 应 考察 其 值 的 变化 ， 即 上 一 步 与 
该 步 R 方 值 的 差异 ， 这 就 是 半 偏 R 方 ， 铬 半 偏 R 方 较 大 ， 说 明 本 次 并 类 的 效果 不 好 ， 应 当 考 虑 聚 类 到 上 一 步 停止 。 第 7 列 为 R 方 期 望 的 近似 值 。 第 8~10 列 为 类 数 判 定 标准 : 


第 8 列 显示 的 是 CCC 值 ，CCC 的 峰值 表示 建议 聚 类 数 。 
第 9 列 显示 的 是 伪 F 统 计量 ， 该 统计 量 描 述 的 是 在 当前 情况 下 ( 按 当 前 类 数 聚 类 ) ， 类 与 类 之 间 的 分 离 程度 。 因 此 ， 该 值 越 大 分 类 效果 越 好 。 
第 10 列 为 伪 t 方 ， 该 统计 量 衡量 的 是 当前 合并 的 两 个 类 之 间 的 分 离 程度 ， 该 值 越 小 说 明 当 前 合并 的 两 个 类 越 合理 ， 反 之 ， 则 说 明 该 步 的 聚 类 效果 不 好 ， 应 当 考 虑 聚 类 到 上 一 步 是 否 就 应 该 停止 。 


上 述 3 个 统计 量 中 ，CCC 值 由 代码 中 的 关键 字 ccc 生 成 ， 后 两 个 统计 量 由 代码 中 的 关键 字 PSEUDO 生 成 ， 仅 对 使 用 AVERAGE、CENTRIOD、WARD 方 法 的 坐标 数据 有 效 。 此 外 ， 上 述 3 个 统计 量 建 议 的 类 
数 可 能 会 不 一 致 ， 在 这 种 情况 下 ， 建 议 综 合 上 述 3 种 统计 量 并 辅助 其 他 统计 量 ， 如 R 方 以 及 半 偏 R 方 进行 考虑 。 


第 11 列 为 标准 化 的 均 方 根 距离 (Normalized RMS Distance) ， 该 值 由 类 间距 离 除 以 观测 间距 离 均 方 根 得 到 ， 可 以 用 来 帮助 判断 聚 类 的 合适 数量 ， 当 某 一 步 的 标准 化 均 方 根 距离 增加 的 幅度 最 大 时 ， 此 
步骤 前 的 聚 类 数 最 合适 。 
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图 13.11 根据 CCC 值 、 伪 F 值 以 及 伪 工 方 值 分 别 生成 的 聚 类 数 准则 图 
图 13.11 为 聚 类 数 准 则 图 ， 该 图 的 横 坐 标 表示 类 数 ， 共 包含 3 个 子 图 ， 分 别 如 下 : 
. 三 次 聚 类 准则 图 ， 从 该 图 可 以 看 出 ， 类 数 为 3 的 时 候 CCC 值 达到 峰值 。 
. 伪 F 图 ， 从 该 图 中 可 以 看 出 ， 当 类 数 为 3 时 ， 该 统计 量 最 大 (类 与 类 之 间 的 区 分 效果 最 好 ) 。 
: 伪 工 方 图 ， 当 类 数 为 3 时 ， 该 值 最 小 ， 当 将 类 别 数 合并 为 2 时 ， 该 值 有 较 大 上 升 ， 说 明 合并 不 合理 。 因 此 ， 可 以 考虑 在 类 数 为 3 时 停止 合并 。 
综合 上 面 的 分 析 ， 可 以 判断 出 PROC CLUSTER 的 建议 类 数 为 3。 


代码 中 的 关键 字 OUTTREE=WORK.TREE 生 成 了 用 于 生成 树 形 图 的 数据 集 work.tree。PROC CLUSTER 自动 调用 PROC TREE 生成 树 形 图 ， 该 图 如 图 13.12 所 示 。 
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图 13.12 PROC TREE 生成 的 树 形 图 
从 该 树 形 图 中 可 以 看 出 每 一 类 具体 包含 的 观测 ， 例 如 ，Pinto Beans cooked from dry 和 Blackeyed peas frozen drained 组 成 了 一 类 。 
至 此 ， 即 完成 了 对 整个 代码 输出 结果 的 解释 。 


现在 来 了 解 过 程 CLUSTER。 事 实 上 ， 它 的 输入 不 仅 可 以 是 原始 数据 集 ， 也 可 以 是 由 其 他 方法 计算 得 出 的 距离 数据 集 。 例 如 ， 在 例 13.1 中 ， 我们 利用 PROC DISTANCE 计 算出 了 观测 间 的 距离 ， 下 面 的 例 
子 完成 对 上 述 10 只 股票 的 聚 类 分 析 ， 并 将 结果 以 树 形 图 的 形式 展示 出 来 。 从 上 面 的 例子 可 以 看 到 ， 如 果 过 程 CLUSTER 包 含 选 项 OUTTREE=， 系 统 就 会 自动 调用 过 程 TREE 生 成 树 形 图 。 除 了 系统 自动 调用 
外 ， 也 可 以 利用 过 程 CLUSTER 的 输出 直接 调用 PROC TREE。 直 接 调用 PROC TREE 人 允许 我 们 更 加 灵活 地 控制 树 形 输出 ， 例 如 ， 通 过 PROC TREE， 可 以 指定 横 坐 标 对 应 的 变量 与 变量 的 取 值 范围 、 间 隔 长 度 


PROC TREE 的 一 般 形 式 如 下 : 
































RUN: 





其 中 ， 
` PROC TREE 语 句 中 常见 的 选项 有 : DATA= 用 于 指定 输入 数据 集 ，HAXIS= 用 于 自 定义 横 坐 标 轴 (可 以 结合 系统 选项 AXIS 使 用 ， 有 具体 见 下 例 ) ，HORIZONTAL 用 于 指定 生成 水 平 树 。 
NAME 语 名 用 于 指定 数据 集中 树 的 节点 的 变量 ， 如 果 该 语句 缺失 ，PROC TREE 会 使 用 输入 数据 集中 的 _NAME._ 变 量 。 
. HEIGHT 语 和 句 用 于 指定 树 形 图 中 每 个 节点 的 高 度 ， 如 果 该 语句 缺失 ，PROC TREE 会 使 用 输入 数据 集中 的 _HEIGHT 或 者 _NCIL 。 
:COPY 语句 用 于 指定 从 输入 数据 集 复制 到 输出 数据 集 的 变量 。 
. ID 语句 用 于 指定 输出 数据 集中 作为 ID 的 变量 。 


例 13.9: 将 例 13.1 中 的 计算 结果 ， 即 数据 集 work.distdcorr 作 为 PROC CLUSTERSs 的 输入 进行 计算 ， 然 后 将 CLUSTER 输入 的 树 形 数据 集 作 为 过 程 TREE 的 输入 ， 最 终结 果 以 树 形 图 的 形式 展示 。 


示例 代码 如 下 : 


proc cluster data=work.distdcorr method=Ward outtree=work.Tree /， 
id:Stook: 

run; 

axisl order=(0 to 1 by 0.1); 

proc tree data=work.Tree haxis=axisl horizontal; 
height rsq ; 
id. Stoeoksy 

UN 








代码 中 有 关 PROC CLUSTER 的 输出 结果 包含 两 部 分 : 一 部 分 是 聚 类 历史 图 ， 如 图 13.13 所 示 。 另 一 部 分 是 聚 类 分 析 树 形 图 ， 如 图 13.14 所 示 。 
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图 13.14 聚 类 分 析 树 形 图 


生成 的 数据 集 work.tree 如 图 13.15 所 示 。 
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图 13.15 ”数据 集 work.tree 


上 述 代码 中 的 全 局 语句 “axis1order= (0to 1by 0.1) ; ”定义 了 一 条 坐标 轴 的 属性 。 在 PROC TREE 中 ， 选 项 haxis=axis1 使 用 该 坐标 轴 ， 关 键 字 horizontal 指 定 了 输出 水 平 树 形 图 。 语 
句 “height_rsq_; ”指定 了 输入 数据 集中 的 变量 _rsq_ 作 为 横 轴 (该 变量 的 标签 为 R 方 ) ，1D 为 变量 stock。PROC TREE 输出 的 树 形 图 如 图 13.16 所 示 。 
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图 13.16 PROC TREE 输出 的 树 形 图 


从 图 13.16 可 以 看 出 ， 如 果 要 把 股票 分 成 3 类 ， 那 么 第 一 类 为 S1 和 33， 第 二 类 为 92 和 397， 其 余 的 为 第 三 类 。 


13.3 “本章 小 结 


聚 类 分 析 在 很 多 领域 都 有 应 用 ， 聚 类 分 析 也 可 以 作为 其 他 算法 的 预 处 理 : 先 对 数据 集 进行 聚 类 ， 然 后 对 每 一 类 进行 分 析 。 聚 类 分 析 的 一 个 最 重要 的 特征 就 是 在 分 析 前 通常 不 知道 应 该 将 数据 分 为 多 少 个 
合适 。 因 此 ， 在 实际 的 处 理 过程 中 ， 可 以 尝试 不 同类 别 数 的 效果 ， 也 可 以 采用 不 同 的 方法 尝试 进行 分 析 。 不 管 采 用 哪 种 方法 ， 都 应 该 结合 分 析 问 题 的 背景 具体 分 析 。 在 聚 类 分 析 前 ， 也 可 以 尝试 对 待 
分 析 的 数据 集 进 行 数据 探索 ， 例 如 当 变 量 个 数 较 少时 可 以 考虑 对 数据 集 作 图 (离散 图 ) ， 这 样 可 以 对 要 分 析 的 数据 集 有 更 深刻 的 了 解 ， 以 便 采 用 合适 的 方法 分 析 。 


第 14 章 ”判别 分 析 


从 上 一 章 内 容 可 知 ， 在 进行 聚 类 分 析 之 前 ， 所 考察 的 对 象 可 以 分 为 哪些 类 别 是 未 知 的 。 在 实际 应 用 中 ， 我 们 也 经 常 遇 到 考察 对 象 分 类 结果 是 已 知 的 情况 ， 例 如 ， 某 商业 银行 根据 信用 卡 等 级 评分 模型 将 
其 用 户 划分 为 3 类 : 信用 等 级 高 、 信 用 等 级 中 以 及 信用 等 级 低 。 由 于 在 分 类 前 ， 我 们 已 经 知道 分 类 结果 ， 因 此 它 不 再 属于 聚 类 分 析 的 范畴 ， 而 是 属于 判别 分 析 的 范畴 。 判 别 分 析 是 用 来 处 理 在 已 知 分 类 结果 的 
情况 下 对 新 数据 进行 归 类 。 


14.1 ”判别 分 析 概 述 
本 节 主要 介绍 判别 分 析 的 理论 知识 ， 包 括 判 别 分 析 的 基本 思想 以 及 常见 的 判别 分 析 方法 。 
14.1.1 判别 分 析 的 基本 概念 及 应 用 


从 统计 的 角度 来 看 ， 判 别 分 析 可 以 描述 为 : 已 知 有 k 个 总 体 G1，G2，…，Gk， 现 有 样本 y， 要 根据 这 K 个 总 体 和 当前 样本 的 特征 ， 判 定 该 样本 y 属 于 哪 一 个 总 体 。 其 主要 工作 是 根据 对 已 知 总 体 的 理解 ， 建 
立 判别 规则 (又 称 判别 函数 ) ， 然 后 根据 该 判别 规则 对 新 的 样本 属于 哪个 总 体 做 出 判断 。 


判别 分 析 在 现实 中 有 着 广泛 的 应 用 。 例 如 ， 在 金融 业 ， 根 据 客户 的 信息 对 其 信用 等 级 的 分 类 ; 在 人 力 部 门 ， 根 据 已 有 的 员工 类 别 及 特征 对 求职 者 进行 相应 的 分 类 ; 在 医学 上 ， 根 据 临 床 特征 对 是 否 染 上 
某 种 疾病 做 出 诊断 ; 在 市 场 营 销 上 ， 根 据 调 查 资料 来 判断 下 个 时 间 段 (月 、 季 度 或 年 ) 产品 是 浅 销 、 平 常 还 是 畅销 ;在 环境 科学 上 ， 根 据 大 气 中 各 种 颗粒 的 指标 来 判断 地 区 是 严重 污染 、 中 度 污染 还 是 无 污 


染 ; 在 体育 运动 科学 中 ， 根 据 运 动员 的 各 项 生理 指标 及 运动 指标 判断 运动 员 适 合 短跑 项 目 还 是 长 跑 项 目 ， 等 等 。 

判别 分 析 是 一 种 多 元 统计 方法 。 在 判别 分 析 中 ， 往 往 需要 研究 考查 对 象 的 多 个 指标 或 变量 ， 也 就 是 说 要 有 多 个 判别 变量 ， 才 能 建立 合理 的 判别 规则 ， 即 判别 函数 。 例 如 在 上 面 信用 卡 的 例子 中 ， 要 正确 
地 判定 信用 等 级 ， 往 往 需要 研究 持 卡 人 的 职业 、 年 龄 、 收 入 、 交 易 历 史 等 多 个 信息 。 
14.1.2 判别 分 析 的 假设 条 件 

进行 判别 分 析 会 涉及 下 述 假设 条 件 ， 但 并 不 是 说 ， 这 些 假 设 条 件 不 满足 ， 就 不 能 进行 判别 分 析 了 ， 而 是 要 根据 这 些 假设 条 件 来 选择 合适 的 分 析 方 法 ， 或 者 是 通过 这 些 假设 条 件 来 了 解 它 们 对 判别 函数 或 
判别 效果 产生 的 影响 。 

- 每 一 个 判别 变量 都 不 能 是 其 他 判别 变量 的 线性 组 合 。 当 一 个 判别 变量 与 另外 一 个 判别 变量 高 度 相关 时 ， 虽 然 能 求解 ， 但 是 误差 将 会 很 大 。 


. 各 判别 变量 之 间 具 有 多 元 正 态 分 布 ， 即 每 个 变量 对 于 其 他 变量 的 国定 值 有 正 态 分 布 。 当 多 元 正 态 分 布 假设 满足 时 ， 可 以 使 用 参数 方法 ， 反 之 ， 则 可 以 使 用 非 参 数 方法 ， 例 如 本 章 后 面 提 到 的 核 方法 和 
近邻 法 。 


: 在 多 元 正 态 假设 条 件 满足 的 前 提 下 ， 使 用 参数 法 可 以 计算 出 判别 函数 。 更 进一步 ， 如 果 已 知 类 别 里 变量 的 协 方差 矩阵 相等 ， 那 么 判别 函数 为 一 次 函数 ; 反之， 判别 函数 为 二 次 函数 。 


14.1.3 ”判别 分 析 常 见 的 方法 


判别 分 析 常 见 的 方法 有 距离 判别 、Bayes 判 别 法 和 Fisher 判 别 法 等 。 理 解 上 述 几 种 判别 分 析 方 法 的 思想 原理 对 于 正确 设 定 判别 分 析 过 程 步 中 的 选项 是 很 有 帮助 的 。 


1. 距 离 判 别 


距离 判别 是 最 简单 、 也 是 最 基本 的 判别 方法 ， 其 基本 思想 是 根据 样本 和 不 同 总 体 的 距离 判定 该 样品 所 属 的 类 别 。 样 本 和 总 体 的 距离 由 距离 函数 来 度量 。 例 如 ， 现 有 生产 同一 产品 的 两 台 设 备 A 和 B， 设 备 
A 生产 出 的 产品 的 平均 寿命 JA=8 (年 ) ， 方 差 “=0.25， 设 备 B 生 产 出 来 的 产品 的 平均 寿命 hB=7.5 (年 )， 方 差 “ 现 有 一 产品 X， 经 测试 得 到 该 产品 的 寿命 为 7.8 (年 ) ， 欲 判断 该 产品 是 设备 A 生 产 的 还 是 
设备 B 生 产 的。 从 直观 上 看 ，X 与 HA 之 间 的 距离 较 X 与 HB 之 间 的 距离 小 。 但 是 ， 设 备 B 生 产 出 来 的 产品 寿命 的 稳定 性 差 : “” 从 另外 一 个 角度 上 说 ， 由 设备 B 生 产 的 产品 寿命 的 分 散 性 更 高 ， 分 散 性 越 高 意味 着 
产品 的 寿命 离 平均 距离 越 远 ， 从 这 个 角度 上 看 ，X 更 有 可 能 是 由 设备 B 生 产 出 来 的 。 为 了 将 距离 和 离散 性 结合 起 来 考虑 ， 定 义 距离 水 数 如 下 : 


= 
TT 


由 此 ， 可 以 计算 出 X 与 设备 A 的 距离 “”*“"“ 同 理 ，X 与 设备 B 的 距离 “~ 

进一步 ， 可 以 定义 判别 函数 Ye ee 判别 规则 如 下 : 

. 如 果 W (X) <0， 那 么 义 与 B 的 距离 较 近 ， 进 而 认为 义 是 由 设备 B 生 产 的 ; 

. 如 果 W (X) 兰 0， 那 么 认为 又 是 设备 A 生 产 的 。 

根据 上 述 规则 ， 由 于 W (X) <0， 因 此 可 以 判定 X 属 于 B 类 设备 生产 的 产品 。 

这 种 将 距离 和 分 散 性 结合 起 来 考虑 的 方法 也 称 马 氏 距离 (Mahalanobis Distance) ， 该 距离 由 印度 数学 家 Mahalanobis 于 1936 年 基于 协 方差 矩阵 提出 。 假 设 总 体 G= (G1，G2，…，Ghk) 为 m 维 ( 考 
察 的 类 别 有 k 个 ， 对 应 K 个 类 别 的 子 总 体 为 Gk， 指 标 有 m 个 ) ， 均 值 向 量 u= (h1，h2，.…，hm) “， 协 方差 矩阵 为 2， 那 么 样本 X= (X1，X2，...，Xm) 与 总 体 G 的 马 氏 距离 定义 为 

dq (xX, G7 = (Xp) EE (WI 


马 氏 距离 是 最 常见 的 距离 函数 之 一 ， 也 是 SAs 用 于 判别 分 析 过 程 步 的 选项 之 一 。 根 据 马 氏 距 离 定 义 的 判别 函数 W_ (X) 可 以 为 线性 函数 或 二 次 函数 : 


. 当 G1，G;，…，GI 的 协 方差 算 降 相等 时 ，W (X) 为 线性 函数 。 

. 当 G1，G2，…，GI 的 协 方差 给 阵 不 全 相等 时 ，W (X) 为 二 次 函数 。 
2.Bayes 判 别 法 

距离 判别 法 简单 、 实 用 ， 但 是 该 方法 也 有 以 下 缺点 : 


. 未 考虑 各 个 总 体 的 分 布 ， 以 及 样本 出 现在 各 个 总 体 G，G，…，GI 的 概率 (该 概率 在 判别 分 析 前 出 现 ， 也 称 先 验 概率 ) 。 


: 没有 考虑 错 判 造成 的 损失 。 

Bayes 判 别 法 正 是 为 了 解决 上 述 缺点 而 提出 的 。 它 将 Bayes 统 计 思 想 用 在 了 判别 分 析 上 : 假设 已 知 样本 出 现在 各 个 总 体 Gi 的 概率 即 先 验 概率 P (Gi) ， 在 此 基础 上 根据 样本 的 信息 ， 确 定 所 观察 到 的 样本 
属于 各 个 总 体 G 的 概率 ( 即 后 验 概率 ) 。 该 判别 法 根据 后 验 概率 对 样本 进行 归 类 。 

以 下 两 种 情形 计算 出 来 的 判别 函数 是 一 致 的 : 

* 在 Bayes 判 别 法 中 ， 考 虑 错 判 造成 的 损失 均等 。 

. 马 氏 判别 法 中 ， 考 虑 先 验 概 率 以 及 协 方差 矩阵 不 全 相等 。 

因此 ，Bayes 判 别 法 中 的 距离 函数 可 以 看 作 是 马 氏 距离 的 推广 。 在 SAs 判 别 分 析 的 过 程 步 的 输出 结果 中 ， 又 将 上 述 推广 的 马 氏 距 离 称 为 广义 平方 距离 。 

使 用 Bayes 方 法 需要 提前 输入 先 验 概率 。 常 见 的 先 验 概率 有 以 下 几 种 : 


. 等 概率 


. 概率 与 样本 容量 成 比例 


* 根据 历史 资料 与 经 验 进 行 估计 


下 文 会 在 介绍 SAs 判 别 分 析 的 过 程 步 时 ， 逐 一 介绍 上 述 几 种 概率 的 设置 方法 。 


3.Fisher 判 别 法 


Fisher 判 别 法 的 基本 思想 是 投影 具体 地 说 ， 就 是 将 k 维 数据 投影 到 某 一 个 方向 ,使 得 投影 后 类 间 的 差异 最 大 。 在 判定 类 间 差 异 的 问题 上 ，Fisher 借 上 鉴 了 一 元 方差 的 基本 思想 。 由 于 Fisher 判 别 法 对 总 体 


的 分 布 没有 任何 要 求 ， 因 此 该 判别 法 也 被 称 为 典型 判别 法 。 


为 了 更 好 地 理解 Fisher 判 别 法 ， 现 在 考虑 两 类 总 体 的 判别 ， 如 图 14.1 所 示 。 训 练 样 本 有 两 个 类 别 ， 若 将 其 沿 着 坐标 的 X 或 Y 方 向 投影 ， 它 们 之 间 的 区 别 都 不 是 很 显著 (在 实际 计算 中 ， 可 以 通过 不 同类 别 


间 均 值 差异 来 衡量 区 分 效果 ) 。 可 是 如 果 将 坐标 旋转 至 X Y 方向 ， 将 样本 沿 着 X 方向 投影 于 Y 轴 上 ， 可 以 看 出 ， 投 影 后 类 别 间 的 区 分 效果 就 比较 好 了 。 





轩 
图 14.1 两 类 总 体 的 Fisher 判 别 
把 上 述 过 程 推广 到 多 维 的 情形 。 在 多 维 的 情形 下 ， 好 的 投影 是 使 得 变换 ( 即 几 何 上 的 旋转 坐标 轴 ) 后 同类 别 的 点 尽 可 能 在 一 起 ， 不 同类 别 的 样本 点 尽 可 能 的 分 离 。Fisher 判 别 法 的 实质 是 寻找 一 个 最 能 


反映 类 与 类 之 间 差 异 的 投影 方向 ， 即 线性 判别 函数 。 一 个 好 的 线性 判别 亢 数 U (X) =CX， 在 k 个 总 体 G1，G2， 


意义 如 下 : 


k 
> [ECC'X) -一 
i=1 


h 
GC 


i 


Ee 


…，Gk 中 去 求 均值 ， 所 得 到 的 k 个 值 ， 应 当 有 较 大 的 离 差 ， 这 就 是 Fisher 准 则 。 这 里 ， 离 差 的 


k 2 
> | 


其 中 ，X 为 来 自 k 个 总 体 的 样本 ( 即 来 自 这 些 总 体 的 一 维 或 多 维 随 机 向 量 ) ;Ej 和 Dj 表示 在 第 i 个 总 体 中 的 均值 和 方差 。 


当 确定 线性 判别 函数 U (X) 之 后 ， 计 算 U (X) 到 各 个 总 体 的 距离 ， 判 定 X 为 来 自 距离 最 小 的 那个 总 体 。 


当 训练 样本 数据 集中 的 类 数 太 多 时 ， 一 个 判别 函数 可 能 不 能 很 好 地 区 分 类 别 ， 这 时 候 就 需要 寻找 第 二 个 甚至 更 多 的 判别 函数 。 一 般 认 为 ， 当 前 所 有 的 判别 函数 的 效率 达到 85% 以 上 即 可 。 


14.2 判别 分 析 在 ?As 中 的 实现 


在 SAs 中 ， 判 别 分 析 法 可 以 通过 以 下 3 个 过 程 实现 : DISCRIM、CANDISC 及 STEPDISC。 


PROC DISCRIM 既 可 以 用 来 处 理 各 个 总 体内 也 就 是 各 个 已 知 类 别 内 的 数据 服从 多 元 正 态 分 布 的 情况 ， 也 可 以 用 来 处 理 数据 不 满足 多 元 正 态 分 布 的 情况 。 对 于 前 者 ，PROC DISCRIM 可 以 计算 出 一 次 或 者 


人 


二 次 判别 函数 (取决 于 组 间 方 差 是 否 相 等 ) ， 并 根据 计算 出 的 判别 浮 数 进行 判别 分 析 ; 对 于 后 者 或 者 是 在 对 各 个 类 别 里 的 数据 分 布 没 有 特定 假设 的 情况 下 ，PROC DISCRIM 可 以 采用 非 参数 方法 进行 判别 分 
析 。 


PROC CANDISC 是 SAS 中 专门 用 来 进行 典型 判别 分 析 的 过 程 。 该 过 程 基于 分 析 的 数值 变量 ， 计 算出 最 能 描述 类 别 间 差 异 的 典型 变量 。 在 使 用 时 ，PROC CANDISC 一 般 仅 给 出 典型 变量 和 得 分 数据 ， 要 
获得 完整 的 判别 分 析 的 结果 ， 需 要 将 PROC CANDISC 的 输出 结果 作为 PROC DISCRIM 的 输入 进行 进一步 的 分 析 。 


PROC STEPDISC 用 于 进行 逐步 判别 分 析 ， 它 采用 向 前 选择 、 向 后 移 除 或 逐步 选择 的 方法 找 出 能 够 最 有 效 地 体现 不 同类 别 间 区 别 的 一 个 或 多 个 变量 。 
14.2.1 ”使 用 过 程 DISCRIM 实 现 一 般 判 别 分 析 


前 文 提 到 的 距离 判别 法 和 Bayes 判 别 法 均 可 以 通过 PROC DISCRIM 实 现 。PROC DISCRIM 的 一 般 形式 如 下 : 





PROC DISCRIM< 选 项 > ; 
LASS 变 量 ， 

Y 变 量 ; 

REQ 变 量 ; 

ID 变 量 ， 
RIORS 概 率 ，; 
ESTCLASS 变 量 ; 
'STFREQO 变 量 ; 
STID 变 量 ， 

R 变 量 ; 
GHT 变 量 ， 














HH 对 OO 








my 



































守之 日 日 日 
加 时 对 匡 











RUN; 


其 中 : 
. 有 关 PROC DISCRIM 语 句 的 选项 如 表 14.1 所 示 。 
CALSS 语 名 指定 分 类 变量 ， 变 量 类 型 可 以 是 数值 型 也 可 以 是 字符 型 。 分 类 变量 的 不 同 取 值 定义 了 判别 分 析 的 不 同类 别 。CALSS 语 多 在 DISCRIM 过 程 步 中 是 必需 的 。 
. BY 语句 指定 分 组 变量 。PROC DISCRIM 依 据 分 组 变量 对 每 一 组 观测 逐一 进行 判别 分 析 。 使 用 该 语句 的 前 提 是 数据 集 已 经 按照 分 组 变量 排序 。 


. PRIORS 语 多 指定 样本 出 现在 由 分 类 变量 〈 即 CLASS 指定 的 变量 ) 定义 的 不 同类 别 内 的 先 验 概 率 ， 先 验 概率 的 值 既 可 以 是 等 概率 ， 也 可 以 是 各 组 样本 在 数据 中 出 现 的 比例 ， 还 可 以 是 用 户 指定 的 某 些 


" 上 述 3 种 取 值 中 ，“ 等 概率 ”以 及 “各 组 样本 在 数据 中 出 现 的 比例 ”二 者 可 以 分 别 通 过 关键 字 EQUAL 和 PROPORTIONAL 来 设 定 。 


. 对 于 用 户 指定 的 概率 ， 可 以 使 用 “水 平 值 = 概率 值 ” 加 以 设 定 。 例 如 ， 假 设 分 类 变量 为 Grade ， 该 变量 的 水 平 值 为 A、B、C 和 和 DD， 那么 ， 用 户 自 定义 的 先 验 概率 值 指 定 如 下 : “PRIORS 
A=0.1B=0.3C=0.5D=0.1; ”。 如 果 水 平 值 为 小 写字 母 或 者 带 有 前 空格 ， 那 么 定义 时 水 平 值 要 加 引号 。 例 如 ， 假 设 分 组 变量 水 平 值 字 母 为 gx、b、c、d， 那 么 可 以 按照 如 下 格式 定 
义 : “PRIORS'a'=0.1'b'=0.3'c'=0.5'd'=0.1; ”。 此 外 ， 水 平 值 的 格式 必须 严格 遵循 CLASS 变量 中 的 格式 ， 例 如 ， 假 设 C 的 值 为 5， 格 式 为 4.2， 那 么 PRIORS 应 该 使 用 “5.00” 而 不 是 “5” 或 者 “5.0”。 














软 认 情况 下 ，PRIORS 的 先 验 概率 值 为 等 概率 。 如 果 所 有 水 平 的 概率 值 之 和 不 等 于 1，PRIORS 按 照 当前 概率 值 组 成 的 比例 对 各 个 概率 值 进行 缩放 。 
 VAR 语 名 指定 用 于 分 析 的 数值 变量 。 假 如 该 语句 缺失 ， 那么 过 程 步 将 对 其 他 语句 未 指定 的 所 有 数值 变量 进行 分 析 。 


. ID 语句 指定 输出 数据 集中 用 来 做 ID 的 变量 。ID 语 句 只 有 在 PROC DISCRIM 语 名 中 指定 LIST 或 者 LISTERR 选 项 时 才 有 效 。 当 DISCRIM 过 程 展现 分 类 结果 时 ， 每 条 观测 的 JD 变量 值 会 被 列 出 (默认 是 观测 
号 被 显示 ) 。 


表 14.1 PROC DISCRIM 常 见 的 选项 


ET E 


指定 需要 分 析 的 输入 数据 集 ， 该 数据 的 分 类 变量 在 CLASS 语句 中 指定 


输 作 数据 集 ee 指定 轩 入 测试 数据 集 (即行 分 组 的 数据 集 )， 该 数据 集 必须 包含 和 DATA= 
| 选项 中 指定 的 数据 集 相 同 的 变量 集合 


ee 站 定 输出 数据 集 ， 该 数据 集 包 售 DATA= 中 指定 的 原始 数据 集 ， 以 及 经 过 
输出 数据 集 判别 函数 计算 的 后 验 概率 和 观测 被 最 终 判定 的 类 别 


指定 SAS 输出 数据 集 ， 该 数据 集 包 含 均值 、 标 准 差 和 相关 性 等 统计 量 

指定 参数 方法 或 者 非 参 数 方法 。 该 选项 的 默认 值 为 NORMAL。 和 参数 方法 
是 基于 分 组 是 多 元 正 态 分 布 的 假设 ,根据 该 假设 计算 出 判别 函数 (一 次 或 
者 二 次 )。 当 该 值 为 NPAR， 过 程 步 使 用 的 是 非 参数 方法 ， 在 非 参 数 方法 中 ， 
用 户 需 指定 KEK= 和 R= 二 者 之 一 (二 者 合 义 见 本 表 非 参数 方法 部 分 ) 

该 选项 的 功能 是 指定 计算 过 程 中 是 否 司 用 合并 后 的 协 方差 窃 阵 进行 计算 ， 
其 可 能 的 取 值 为 YES、NO 和 TEST， 三 者 分 别 对 应 着 使 用 合并 后 的 协 方差 
矩阵 进行 计算 、 使 用 每 个 类 各 自 的 协 方差 矩阵 进行 计算 ， 以 及 通过 假设 检 
验 决 定 是 否 使 用 合并 的 协 方差 矩阵 进行 计算 


a 该 选项 输出 原始 数据 集 的 每 一 条 观测 的 初始 类 别 、 经 判别 函数 判定 的 类 
重新 判别 后 的 光 别 ， 以 及 属于 每 一 类 的 概率 


仅 输 出 LIST 中 误 判 的 观测 

K 值 为 最 近邻 的 个 数 。 在 过 程 步 的 计算 方法 中 ， 

基于 这 些 最 近邻 的 信息 ， 对 当前 观测 进行 归 类 。 不 能 和 下 面 的 R= 选项 同 
时 使 用 


R= | 首 定 校 密谋 估计 (Kernel Density Estimation ) 的 半径 





非 参 数 方法 





CROSSLIST 簿 出 欧 叉 验证 信息 
交叉 验证 输出 交叉 验证 中 归 类 错误 的 信息 
指定 过 程 步 使 用 交叉 验证 
输出 全 部 系统 默认 选项 的 全 部 结果 
控制 输出 选项 答 出 简单 统计 量 


检验 某 个 变量 内 所 有 组 之 间 的 均值 是 否 相等 


例 14.1: 数据 集 ex.cars_types 和 | 数据 集 ex.cars_test 均 是 数据 集 sashelp.cars 的 子 数据 集 (如 图 14.2 所 示 ) 。 在 变量 多 元 正 态 的 假设 下 ， 现 在 要 利用 数据 集 ex.cars_types 对 数据 集 ex.cars_test 进 行 判别 分 


析 (数据 集 ex.cars test 的 分 类 是 已 知 的 ， 这 仅仅 是 为 了 检验 判别 分 析 的 效果 ， 需 要 指出 的 是 ， 下 面 的 代码 适用 于 类 别 未 知 的 情况 ) 。 











MDX \ 二 

RSX Type S 2dr $84.600 $76.417 42 8 450 15 22 
$37.000 $33.873 3 6 225 16 235 
$28.495 $26.155 25 6 184 20 29 
$48,195 $44.170 3.2 6 333 16 24 
$37,895 $34,357 4.2 6 275 15 21 
$22.180 $20.351 3.1 6 175 20 30 
$52,795 $48,377 5.3 8 295 14 18 
$30,835 $28,575 36 6 255 18 25 
$76.200 $70.546 46 8 320 17 25 
$42.735 $37.422 5.3 8 235 14 18 
$11.690 $10.965 16 四 103 28 34 
$44.535 $39.068 5.7 8 350 18 25 
$17.985 $16.919 24 4 150 22 29 
$34.495 $32.033 32 6 215 17 25 
$32.235 $29.472 47 8 230 15 21 
$13.670 $12.849 2 一 132 29 36 
$81.735 $74.451 8.3 10 500 12 20 

0 ' 








图 14.2 ”数据 集 ex.Cars_types 和 和 ex.Cars_test 


示例 代码 如 下 : 





data ex.cars types ex.cars test; 
Set sashelp.cars; 
by make type; 
where type in ("SUV", "Sedan", "Sports"); 
if first.type then do; 
if Origin in ("USA" , "Europe") 
then output ex.cars types; 
else output ex.cars test; 






































eng; 
人 > 
proc discrim data = ex.cars types testdata = ex.cars test method = normal Pool = 
test distance list testout = ex.car results; 
class type; 
var Weight Wheelbase Length MPG City EngineSize; 
run; 














上 述 代码 中 的 DATA 步 是 用 来 生成 训练 数据 集 与 测试 数据 集 的 。 下 面 ， 具 体 分 析 PROC DISCRIM 部 分 代码 。 
在 PROC DISCRIM 中 ， 进 行 判别 分 析 的 原始 数据 输入 方式 共有 两 种 : 
第 一 种 方式 是 将 训练 数据 集 和 测试 数据 集 分 别 存储 为 两 个 数据 集 ， 这 两 个 数据 集中 分 类 变量 的 变量 名 必须 相同 。 这 也 是 本 例 所 采用 的 方法 。 


第 二 种 方式 是 将 训练 数据 和 测试 数据 放 在 同一 个 数据 集中 ， 并 且 用 同一 个 分 类 变量 来 标注 各 个 样本 所 属 的 类 别 ， 例 如 本 例 中 的 Type 变量 ; 而 数据 集中 需要 判定 类 别 的 观测 所 对 应 的 分 类 变量 之 值 在 判定 
之 前 为 缺失 值 。 


下 面具 体 分 析 PROC DISCRIM 的 输出 结果 。 首 先 来 看 输出 的 数据 集 的 一 些 基本 统计 信息 ， 具 体 如 图 14.3 所 示 。 由 于 未 指定 先 验 概率 ， 系 统 默 认 将 数据 集 ex.cars_types 中 观测 归 入 SUV、Sedan、Sports 
三 个 不 同类 的 先 验 概率 是 一 样 的 ， 即 1/3。 图 14.3 中 最 后 一 个 表 显 示 的 协 方差 矩阵 的 秩 (矩阵 的 秩 等 于 该 矩阵 非 零 的 特征 值 个 数 ) 与 矩阵 行列 式 的 自然 对 数值 ， 后 者 用 于 判别 函数 的 构造 。 
































DISCRIM 过 程 





总 样本 大 小 | 49 总 自由 度 | 4 
变量 5 分 类 内 自由 讼 46 
分 类 3 分 类 间 自 由 诬 2 

































































了 地 5 EL- | 和 
读 取 的 观测 数 49 





















































使 用 的 观测 数 49 
分 类 水 平 信 息 
| 
Type 否 数 舱 章 比例 概率 
SUV 18 | 18.0000 0.367347 0.333333 
| Sedan 20 20.0000 0.408163 0.333333 
| Sporta 11 11.0000 0.224490 0.333333 












“名 方 阵风 
行列 式 的 
自然 对 数 


19.15003 
16.67912 
19.31037 


















图 14.3 ” PROC DISCRIM 输 出 的 汇总 信息 
代码 中 的 关键 字 POOL=TEST 使 用 检验 来 判断 不 同 Type 的 协 方 差 矩阵 是 否 相 同 ， 进 而 决定 是 否 合并 对 应 不 同 Type 的 协 方差 矩阵 。 该 关键 字 的 输出 结果 如 图 14.4 所 示 。 
如 图 14.4 所 示 ， 由 于 卡 方 值 在 0.1 水 平 处 显著 ， 因 此 可 以 认为 方差 的 齐 性 不 满足 。 因 而 ， 判 别 函 数 为 二 次 ， 且 判别 函数 使 用 的 是 类 间 的 协 方差 矩阵 。 


代码 中 的 关键 字 DISTANCE 用 于 输出 不 同类 间 (〈 即 Type) 的 距离 ， 具 体 如 图 14.5 所 示 。 其 中 第 一 个 表格 显示 的 是 平方 距离 信息 ， 例 如 ， 从 Type SUV 到 Type Sedan 的 平方 距离 为 34.49641; 第 二 个 表格 
显示 的 是 广义 平方 距离 信息 ， 如 从 Type SUV 到 Type Sedan 的 广义 平方 距离 为 51.17552。 


距离 矩阵 可 以 用 于 判断 类 间 区 分 是 否 明显 ， 如 果 某 两 类 间 的 距离 太 小 ， 说 明 原 始 数据 集中 的 分 类 不 合理 。 当 然 ， 距 离 矩 阵 最 重要 的 作用 来 是 用 来 生成 判别 函数 以 及 判别 规则 。 


| DISCRIM 过 程 
分 类 内 协 方差 答 阵 的 齐 性 检验 


卡 方 | 自由 度 | Pr > 卡 方 
= 3U .UU 


由 于 卡 方 值 在 0.1 水 平 处 显 其， 将 在 判刑 郴 至 中 使 用 分 类 内 协 方 差 拭 阵 。 
务 老 " Morrison, D.F. (1976) Multivariate Statistical Methods p252. 


图 14.4 PROC DISCRIM 关 键 字 POOL=TEST 的 输出 


关键 字 LIST 输 出 的 是 根据 判别 浮 数 计算 的 后 验 概率 ， 以 及 对 原始 数据 集中 观测 新 的 归 类 结果 。 如 图 14.6 所 示 是 LIST 的 部 分 输出 结果 ， 从 结果 中 可 以 看 出 ， 第 一 条 观测 在 原始 数据 集中 的 Type 为 Sedan,， 
使 用 判别 函数 计算 出 该 观测 分 别 有 0.0204、0.8372 和 0.1424 的 概率 属于 SUV、Sedan 和 Sports。 于 是 根据 概率 值 的 大 小 ， 过 程 DISCRIM 判 定 该 观测 Type 为 Sedan。 注 意 ， 如 果 有 误 判 出 现 ， 那 么 过 程 
以 “*” 号 标记 ,例如 图 14.6 中 的 第 9 条 观测 。 


紧 接 着 是 判别 结果 的 两 个 汇总 表格 ， 如 图 14.7 所 示 。 第 一 个 表格 中 展示 的 是 有 关 观 测 数 以 及 百分比 的 信息 ， 该 表格 的 每 一 个 单元 格 都 包含 了 两 行 数字 ， 上 面 的 数字 为 观测 数 ， 下 面 的 数字 为 百分比 。 从 
第 一 个 表格 可 以 看 出 ， 原 数据 集 共 有 18 条 观测 Type 值 为 SUV， 根 据 过 程 步 生 成 的 二 次 判别 函数 ， 有 15 条 被 正确 归 入 SUV， 有 2 条 被 误 判 为 Sedan， 还 有 1 条 被 误 判 为 Sports。 第 二 个 表格 统计 每 一 类 以 及 整体 
出 错 的 概率 。 从 第 二 表格 可 以 看 出 ， 整 个 Type 为 SUV 的 误 判 率 为 16.67%， 和 总体 误 判 率 为 8.89%。 


到 Type 的 平方 距离 
从 Type SU Sedan Spors 
SUV 0 | 34.49641 | 21.05254 




















Sedan 13.16620 DO 10.75047 
Sports 15.66512 45.79524 0 





到 Type 的 广 党 平方 距离 
MM Type SUY Sedan Spors 























19.15003 
32.31623 16.67912 30.06084 
48151s 627 19.3103/ 


51.17552 | 40.3629 





图 14.5 ”关键 字 DISTANCE 的 输出 















| 0.1424 
IF 0.7635 
| 0.0918 
| 0.8323 0.0617 
0859 0 0017 | 0.91.24 























图 14.6 ”关键 字 LIST 的 输出 结果 


最 后 输出 的 是 对 需要 判别 的 数据 集 ex.cars test 的 判别 结果 。 如 图 14.8 所 示 ， 待 判别 的 数据 中 共 包含 33 个 观测 ， 总 体 的 误 判 率 为 22.77%。 


DISCRIM 过 程 
以 下 校准 数据 的 分 类 下 总 : EX.CARS_TYPE 
使 用 以 下 项 的 重新 蔡 换 汇总 : 二 次 六 F 








分 人 Type 的 观测 笋 和 百分比 
从 Type SUVW 

































































Type 的 出 错 数 信 计 















































图 14.7 对 数据 集 ex.cars_types 的 判别 结果 





.DISCRIM 过 种 
蛤 数据 的 分 类 汇总 : EX.CARS _ TEST 
项 的 分 类 汇总 : 二 次 判别 匡 








从 Type suUv | 





”的 观 唱 数 和 白 分 比 
Sedan Sports 











2 1 1i 
18.18, 9.09 100.00 
0 





| Sedan 1 12 13 
7.69| 92.31| 0.00 100.00 


此 1 6 9 


11 15 7| 3 
3333 | 45.45| 21.21 100.00 


0.33333 0.33333 0.33333 
































“Type” 











UV | EdaN Sporls TT 







O3343 0 2271 
0 于 3433 








比率 | 0.2727 | 0.0769 





图 14.8 ”数据 集 ex.cars_test 的 判别 结果 


代码 中 testout=ex.car_results 将 具体 的 判定 结果 以 数据 集 的 形式 输出 ， 数 据 集中 的 变量 INTO 表示 观测 被 归 入 的 Type， 


至 此 ， 对 代码 的 分 析 全 部 结束 。 


在 本 例 中 ,假设 了 是 满足 多 元 正 态 性 条 件 的 ， 在 实际 中 ， 可 以 通过 Q-Q 图 等 工具 判断 正 态 性 条 件 是 否 满 足 。 当 正 态 性 不 满足 时 ， 可 以 利用 非 参 数 方 法 加 以 分 析 ， 这 里 不 具体 展开 讲 。 


0.8343361821 
0.0000150364 
0.0364683015 
0.8871144848 


变量 SUV、S$edan 和 Sports 分 别 为 观测 在 这 3 个 类 别 上 的 得 分 ， 


2.687154E-26 
0.5084197187 
0.2188428375 


0 3455218321 


1.663703E-16 
0.4873795814 


0.J99939939999 
0.0133811811 
0. WE MI 


3 


00811667186 

0.011630734 
0.0006102593 
0.1203592136 


1 144177E7 
0 B024743966 





图 14.9 ”数据 集 ex.Car_results 判 定 结 果 输 出 


14.2.2 ”使 用 过 程 CANDISC 实 现 典 型 判别 分 析 


回顾 本 章 开篇 介绍 的 典型 判别 法 ， 该 判别 法 的 最 终 目 的 是 找 出 若干 个 投影 方向 ， 使 得 数据 沿 这 些 方向 投影 后 
CANDISC 对 原 数 据 集 用 来 判别 分 析 的 数值 变量 进行 了 线性 组 合 ， 得 到 了 若干 典型 变量 (Canonical Variables) ， 使 得 原 数据 集 的 不 同类 别 在 这 些 典型 变量 上 的 区 分 最 明显 
的 过 程 与 在 主 成 分 分 析 中 计算 主 成 分 的 思想 一 致 : 找 出 若干 个 原始 变量 的 线性 组 合 ， 这 些 线性 组 合 能 解释 绝 大 部 分 的 组 间 差 异 。 


PROC CANDISC 能 够 帮助 我 们 找 出 典型 变量 ， 但 这 不 是 判别 分 析 的 最 终 目 的 (最终 目的 是 归 类 


PROC CANDISC 的 一 般 形 式 如 下 : 





具体 如 图 14.9 所 


类 别 间 的 差异 最 大 。 在 SASs 中 ， 典 型 判别 法 可 以 通过 PROC CANDISC 来 实现 。PROC 
。PROC CANDISC 计 算 典 型 变量 


。 为 了 达到 分 类 的 目的 ， 可 以 将 PROC CANDISC 的 输出 结果 输入 其 他 判别 分 析 过 程 步 中 加 以 分 析 。 





PROC CRANDISC 的 一 般 形 式 如 下 : 
PROC CANDISC< 选 项 > ，; 
LASS 变 量 ， 

















其 中 : 
有 关 CANDISC 语 句 的 部 分 选项 如 表 14.2 所 示 。 


表 14.2 PROC CANDISC 的 选项 及 其 含义 


这 项 类 到 全 名 
输入 数据 集 DATA= 指定 输入 的 训练 数据 集 ， 该 数据 的 分 类 变 i CLASS 语句 中 指定 
首 定 输出 数据 集 ， 该 数据 集 包 含 各 种 统计 量 ， 例 如 均值 、 方 差 、 相 关系 
Es 型 得 分 等 


定 输 出 数据 集 ， 该 数据 集 包含 原 数 据 集 以 及 典型 变量 得 分 


输出 数据 集 





Am 
AN 
NS 
Pan 
» + 
We 


选项 类 别 含义 


方法 相关 NCAN- 指定 个 数 ， 典 型 变量 的 个 数 不 超过 竺 分 析 的 变量 个 


输出 : 和 下 二 了 
控制 输出 选项 输出 类 间 协 方差 矩阵 


输出 类 间 均 值 的 马 氏 距离 平方 、F 统计 量 ， 以 及 类 间距 离 大 于 马 氏 距离 平 
DISTANCE Ry 当 介 J 马 平方 元 上 得 类 则 距离 大 于 马 
ju 


* CALSS 语 句 指 定 分 类 变量 ， 分 类 变量 用 于 建立 判别 公式 ， 变 量 类 型 可 以 是 数值 型 也 可 以 是 字符 型 。 


: VAR 语 名 指定 用 于 分 析 的 变量 。 假 如 该 语 名 缺失， 那么 对 过 程 步 中 的 所 有 数值 变 分 析 。 
例 14.2: 使 用 典型 判别 方法 对 例 14.1 中 的 数据 集 ex.Cars _ test 进行 判别 分 析 。 


整个 分 析 过 程 大 体 如 下 : 利用 CANDISC 过 程 进行 判别 分 析 ， 可 以 得 到 若干 个 典型 判别 函数 ， 以 及 数据 集中 的 每 条 观测 的 计算 得 分 。 这 些 得 分 将 作为 DISCRIM 过 程 的 输入 对 数据 集 ex.cars test 进行 判别 
分 析 。 由 于 CANDISC 过 程 输入 的 数据 集 只 能 有 一 个 ， 因 此 ， 先 将 数据 集 ex.cars_ test 中 的 Type 设 为 缺失 ( 待 判定 ) ， 再 将 该 数据 集 和 数据 集 ex.cars types 合 并 为 数据 集 ex.cars_all。 在 利用 数据 集 ex.cars all 
进行 典型 判别 分 析 时 ，Type 为 缺失 值 的 观测 不 会 被 用 来 计算 判别 函数 ， 但 是 ， 经 过 其 他 观测 生成 的 判别 函数 会 计算 这 些 观 测 的 得 分 。 具 体 代 码 如 下 : 


data ex.cars test notype; 
set ex.cars test; 





























Type EE 1 
run; 
proc sql; 
create a ex.cars all as 
select fromex.cars types 
union 
select * fromex.cars test notype 
quit; 
proc candisc data = ex.cars all out = ex.cars all results distance; 
class type; 
var Weight Wheelbase Length MPG City EngineSize; 
run; 





PROC CANDISC 首 先 输出 的 是 汇总 信息 和 距离 信息 ， 这 部 分 信息 和 PROC DISCRIM 一 样 ， 这 里 就 不 重复 展示 了 。 接 下 来 ，PROC CANDISC 输 出 的 是 对 样本 中 各 分 类 均值 是 否 相等 所 进行 的 4 种 多 元 检 
验 的 结果 ， 如 图 14.10 所 示 。 从 该 表格 中 可 以 看 出 ， 无 论 是 依据 哪 一 种 检验 ， 我 们 都 可 以 认定 样本 中 不 同类 之 间 的 均值 不 一 样 。 


CANDISC 过 程 


Multrvanate Statistics and F Approximations 
“二 上 M=1 N=20 
统计 县 值 F 值 分 子 自由 度 | 分 母 自 由 度 Pr> F 
Wilks' Lambda 0.13386381 | 14.56 10 84 | <.0001 
Pillais Trace 1.26729285 14.87 10 86 | < 0001 
Hotelling-Lawley Trace 3.47352676 14.37 10 60.313 ，<.0001 
Roy 3 Greatest Root 1.876/74531 16.14 二 中 3 去 .DOO 
注 : Roy 受 大 根 的 FF 统计 县 是 上 限 。 
注 : Wilks Lambda 的 统计 量 是 精确 值 。 





图 14.10 ”4 种 不 同 假设 检验 结果 


紧 接着 是 典型 相关 假设 检验 ， 如 图 14.11 所 示 。 该 表格 的 前 半 部 分 是 典型 相关 值 ， 中 间 部 分 是 特征 值 ， 第 一 个 典型 相关 变量 能 解释 的 比例 仅 为 94.03%， 但 前 两 个 典型 变量 能 解释 样本 的 全 部 变异 。 累 积 
解释 变异 的 比例 值 也 是 我 们 判断 采用 典型 变量 个 数 的 依据 ， 一 般 来 说， 累积 解释 变异 的 比例 需 达 到 80%。 表 格 的 后 半 部 分 是 当前 典型 变量 和 之 后 典型 的 相关 性 检验 。 典 型 相关 为 0 的 意思 是 两 组 变量 没有 线性 
关系 。 


CANDISC 过 程 


特征 值 : Inv(E》*H 
近似 曲 肛 = CanRsq/(1-CanRsq) H0 检验 : 当前 行 和 之 后 的 所 有 行 的 内 型 相关 都 星 零 


调整 
由 型 典型 标准 相 美 似 然 ”近似 
相关 相关 


误差 平方 “特征 值 着 分 比例 黑 积 比 F 值 分 子 自 由 度 分 母 自 由 度 Pr > F 
1 0.807703 0.737074 0.050174 0.652385 1.8767 0.2800 0.5403 0.5403 0.13386381 14.56 10 84 <.0001 
2 0.784161 .0.055583 0.614908 1.5968 0.4597 1.0000 0.38509209 17.17 d43 <.0001 


DE Pe 
典型 相关 特征 值 以 及 累积 解释 变异 的 比例 典型 相关 假设 检验 





图 14.11 典型 相关 假设 检验 


CANDISC 过 程 一 共 给 出 了 3 种 判别 系数 ， 如 图 14.12 所 示 。 其 中 第 一 个 表格 显示 的 是 


DISCRIM 过 程 
鼻 型 判 刘 分析 


变量 标签 Can1 | Can2 
Weight Weight (LBS) | 1.719848562 | 0.610366074 
Wheelbase | Wheelbase (IN) 0.540108741 | 0.863879684 
Length Length (IN) |-0.440465919 | 0.025263547 
MPG City MPG (City) |-0.217065184 | 1.240676544 
EngineSize | Engine Size (L) | -0.679337115 | -1.061294234 





合并 关内 标准 化 暴 型 系数 
变量 标签 Can1 Can2 
Werght Weight (LBS) 10r699494| 0. 扯 2220392 
Wheelbase Wheelbase (IN) 0.406158499 0.649632285 
Length Length (IN) -0 ,333832552 U022015200 
MPG_City | MPG (City) -0.140296588 0.801891316 
EngineSize | Engine Size (L) -0.494866263 -0.773104693 








原始 典型 系数 
变量 标签 Cani Can2 
Welight Weight (LBS) 0.0016020059 0.0005685443 
Wheelbase | Wheelbase (IN) 0.0621161711 0.0993520270 
Length Length UN -.0312368847 0.0017916358 
MPG_Ci MPG (City) -.0467783425 0.2673703412 
EngineSize | Engine Size (LD) -4541219179  -.7094518503 


基于 总 样本 (Total Sample) 的 标准 化 典型 系数 ， 第 二 个 表格 是 基于 合并 类 内 (Pooled Within Class) 的 标准 化 典型 系数 ， 最 后 一 个 表格 是 基于 原始 形式 (Raw) 的 典型 系数 。 


最 后 ，“ 输 出 ”窗口 还 给 出 了 Type 的 不 同类 观测 在 典型 变量 Can1 和 Can2 上 的 均值 ， 如 图 14.13 所 示 。 


典型 变量 上 的 类 均值 
Type Lanl CAnz 
Sedan =-0.916r14685 1.207714344 
Spons -1.175785805 -2.000 

















47096 


图 14.13 ”典型 变量 TYPE 在 Can1 和 Can2 上 的 均值 


PROC CANDISC 输 出 的 数据 集 ex.cars all_results 如 图 14.14 所 示 。 


唱 VIEWTABLE: Ex.Cars_all_results 
Cylinders Horsepower 





:拉扯 失 失 失 挫 扩 I 捏 提 5 失 EE 失 


6 
6 
4 
4 
8 
6 
6 
6 
6 
6 
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8 
4 
8 
8 


图 14.14 ”数据 集 ex.cars_all_results 


至 此 ， 代 码 的 输出 分 析 结 束 。 


在 例 14.2 中 ， 我 们 使 用 典型 判别 法 找 出 了 2 个 典型 变量 Can1 和 Can2， 并 计算 出 了 数据 集中 每 一 条 观测 在 典型 变量 上 的 相应 得 分 。 


一 步 的 分 析 ex.cars all_results。 
例 14.3: 根据 例 14.2 中 计算 出 的 典型 变量 ,利用 PROC DISCRIM 完 成 对 数据 集 ex.cars_all 的 判别 分 析 。 


示例 代码 如 下 : 


0. A07378733 
-1.106572932 
"10023 129 
-453B15116 
-0.A50350801 


-0236850335 


0.8585153112 
0.978023631 


3 1.0649737563 


0.160594732 

1.839883703 

-0.703203225 

-2.054484383 

-016509375 

1.4119299352 
| 


| 
188531517 | 


-1.336653119 | 吊 


1.2688461452 

1.456083347 
-1.161017544 
0.6386455821 
0654873739 
0.5813045381 
D0442544666 
0.2747614543 
-1 A45746136 
20831279293 
27897 


0.4525398075 = 


b 





为 了 得 到 完整 的 判别 结果 ， 可 以 利用 PROC DISCRIM 对 数据 集 进行 进 





Proc discrim data = ex.cars all results method = normal 
pool=test out = ex.cars results2 }; 
class type; 
Var canl can2; 

run; 


上 述 代码 的 输出 结果 与 例 14.1 的 输出 结果 类 似 ， 这 里 不 歼 述 。 根 据 典 型 变量 Can1 和 Can2 计 算出 的 判别 函数 对 数据 集 进 行 判别 分 析 的 整体 误 判 率 为 7.22%， 如 图 14.15 的 左 图 所 示 ; 这 较 例 14.1 中 的 整体 


判别 效果 略微 有 提高 ， 如 图 14.15 的 右 图 所 示 。 


“Type” 的 出 锚 数 估计 


“Type” 的 出 错 数 估计 

SUV Sedan Sports 合计 
比率 |0.1667 | 0.1000 0.0000 0.0889 
先 验 | 0.3333 | 0.3333 0.3333 


SUV Sedan | Sports 合计 
比率 | 0.1667 | 0.0500 | 0.0000 0.0722 
先 验 | 0.3333 | 0.3333 | 0.3333 


图 14.15 ” 例 14.2 和 例 14.1 的 分 析 结 果 对 比 


最 终 的 判别 结果 可 以 通过 查看 数据 集 ex.cars_results2 中 变量 INTO 的 值 来 了 解 ， 如 图 14.16 所 示 。 


[em -== 并 


83 0.7407378793 2 SUV 0.7811988323 0.1469231434 00718780243 

2 | 证 让 -1.106572932 -1.336653119 Sports 0.015832794 0.0001030287 0.3840641773 

101 li -1.365237292 1.2688461452 Sedan D0125305003 0.3862158043 0.0012536348 
453815116 1.A56083347 Sedan D0405732469 0.9289892655 0.0304374876 
M72545 -1.161017544 Sports D02300281077 0.0403665501 0.7230053422 
0.450950801 0.6386455821 Sedan 0.0805098285 0.8352750397 0.08421513193 
0236850335 0.654873739 Sports 0.2157374667 0.1307918711 0.6534706622 
0.8585153112 0.0367705067 SUV 0.8521462203 0.0928130023 0.0550407768 
嫉 .378023631 0.5813045381 Sedan 0 ee 276 0.878222056 0.0536236654 
1.0649737563 -0.432544666 SUV Ee 0.0144547983 
.160534 92 O02147614544 Sedan 0 1811079086 ， | 0.2092232269 
1.833883703 -0.735432635 SUY 0.3987878742 0. 001 1613814 0.0000501444 
.M3203225 -1.445746136 Sports 0.0238435387 0.0004353623 0.375721039 
-2 054484483 20831279293 Sedan 0.0013891139 0.9986099304 8.9561962E-/ 
OI -282 103/ Sports ULUUU1383 如 -56043777E-1E 0.9938010645 
14113293352 0.4525398075 SUV 0.9893032516 0.0024115915 0.0082851569 = 

FT 上 
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| 
| _ 10 | 
ET 
这 
TV 
| 5 | 
中 1 
司 





图 14.16 ”数据 集 ex.cats_results2 


将 数据 集 ex.cars_results2 和 数据 集 ex.cars _ test 对 比 可 以 看 出 ， 数 据 集 ex.cars_results2 中 共有 7 条 观测 被 误 判 ， 这 个 精度 与 例 14.1 一 致 〈 误 判 的 观测 略 有 不 同 ， 但 是 总 数 均 是 7 条 ) 。 


14.2.3 ”使 用 过 程 STEPDISC 实 现 逐 步 判 别 分 析 


在 前 面 介绍 的 判别 分 析 中 ， 分 类 变量 和 用 来 判别 分 类 的 数值 型 变量 后 ， 我 们 将 所 有 的 数值 型 变量 都 一 次 性 喜 括 在 分 析 中 了 。 但 在 实际 应 用 中 ， 可 能 会 有 部 分 数值 型 变量 的 判别 效果 较 差 ， 在 这 种 情 
况 下 ， 没 有 必要 将 这 些 判 别 效果 较 差 的 变量 囊括 进 判别 分 析 。 例 如 ， 数 据 中 的 不 同类 别 在 某 一 变量 上 的 均值 差异 不 大 ， 在 这 种 情况 下 ， 使 用 该 变量 进行 分 类 的 效果 将 不 是 很 好 。 还 有 一 类 变量 ， 独 立 考虑 时 
的 确 能 够 很 好 地 区 别 数 据 中 的 不 同类 别 ， 但 是 将 这 些 变量 圳 括 进 判别 分 析 的 变量 后 ， 就 有 可 能 显得 多 余 了 。 对 此 ， 就 需要 移 除数 据 中 的 判别 效果 不 好 的 、 多 余 的 变量 。 在 SAS 中 ，STEPDISC 过 程 可 以 用 来 对 
判别 分 析 变 量 进 行 甄选 。 


给 定 一 个 数据 集 和 分 类 变量 以 及 数值 型 变量 后 ，STEPDISC 过 程 可 以 选择 出 其 中 的 若干 个 (也 可 能 是 全 部 ) 数值 变量 用 于 判别 分 析 。STEPDISC 过 程 选择 变量 的 方式 共有 以 下 3 种 : 
. 向 前 选择 (FORWARD SELECTION) 

. 向 后 移 除 (BACKWARD ELIMINATION) 

. 逐步 选择 (STEPWISE SELECTION) 


所 谓 向 前 选择 ， 指 的 是 开始 时 模型 中 没有 变量 ， 然 后 逐步 向 模型 中 添加 变量 ,每 步 仅 添 加 一 个 判别 能 力 最 强 而 且 大 于 事前 设置 的 阅 值 的 变量 。 衡 量 判别 能 力 强 弱 的 准则 为 WILKS'S LAMBDA 值 ， 该 值 越 
小 ， 判 别 能 力 越 温 。 当 不 在 模型 中 的 变量 都 达 不 到 事前 设置 的 阅 值 时 ， 向 前 选择 停止 


相反 ， 向 后 移 除 会 在 开始 时 襄 括 所 有 的 变量 ， 再 依据 给 定 的 WILKS'S LAMBDA 统 计量 的 值 ， 逐 一 移 除 模 型 中 判别 能 力 最 小 县 判别 能 力 小 于 WILKS'S LAMBDA 的 变量 。 当 剩余 的 所 有 变量 都 达到 WILKS'S 
LAMBDA 相 似 比 值 准则 的 标准 时 ， 向 后 移 除 过 程 停止 。 


逐步 选择 可 以 看 作 是 向 前 选择 和 向 后 移 除 的 综合 。 开 始 使 用 该 方法 时 ， 模 型 中 不 包含 任何 变量 ， 然 后 在 模型 中 添加 判别 能 力 最 强 的 变量 ， 随 着 模型 中 变量 的 逐渐 增加 ， 较 早 引 入 的 变量 的 判别 能 力也 可 
能 随 之 变化 ， 如 果 模 型 中 某 变 量 的 判别 能 力 小 于 阅 值 了 ， 就 移 除 该 变量 。 然 后 反复 这 个 过 程 ， 直 至 模型 所 包含 的 变量 都 满足 WILKS'S LAMBDA 相 似 比值 准则 ， 且 其 他 变量 都 达 不 到 进入 模型 的 标准 为 止 。 


由 于 逐步 判别 法 每 次 仅 选 择 一 个 变量 ， 并 没有 考虑 待 筛选 变量 之 间 的 关系 ， 因 此 ， 理 论 上 说 ， 某 些 关 键 的 变量 可 能 会 被 排除 在 最 终 的 模型 外 。 此 外 ， 逐 步 判 别 是 依据 WILKS' S LAMBDA 统 计量 值 来 衡量 
判别 能 力 的 大 小 的 ， 但 该 统计 量 也 不 总 是 衡量 变量 判别 能 力 的 最 好 准则 ， 所 以 不 排除 关键 变量 被 排除 在 最 终 模型 外 的 可 能 。 但 是 即便 如 此 ，STEPDISC 过 程 仍然 可 以 作为 DISCRIM 过 程 和 CANDISC 过 程 的 一 
个 很 好 的 补充 。 


PROC STEPDISC 的 一 般 形式 如 下 : 





PROC STEPDISC< 选 项 >，; 


























在 上 述 语法 中 ，BY 语 句 、FREQ 语 句 、VAR 语 句 以 及 WEIGHT 语 句 的 功能 与 PROC DISCRIM 中 对 应 语句 的 功能 相同 ， 这 里 仅 对 PROC STEPDISC 语 句 中 的 选项 加 以 介绍 ， 如 表 14.3 所 示 。 


表 14.3 PROC STEPDISC 常 见 的 选项 


DATA = 指定 将 要 分 析 的 数据 集 
指定 选择 模型 变量 的 方法 ， 默 认 值 为 STEPWISE | SW， 也 可 以 指定 为 FORWARD |FW 或 


METHOD = 
BACKWARD | BW 

SLENTRY = 指定 回 前 选择 法 中 引入 变量 的 显著 性 水 平 国 值 ， 系 统 默认 值 为 0.15 

SLSTAY = 指定 问 后 移 除 法 中 保留 变量 的 显 闭 性 水 平 阅 值 ， 系 统 默认 值 为 0.15 

START = 指定 初 妨 定 洒 让 区 量 的 数 日 。 在 问 前 选择 法 和 逐步 选择 法 中 ， 系 统 默认 值 为 0 ; 在 问 后 移 除 


和 和 系统 默认 值 为 VAR 语句 中 变量 的 数目 


时 就 会 停止 变 


指定 最 终 模 型 中 变量 的 数目 ， 当 发 现 指定 数目 变量 的 模型 时 ，DISCRIM 过 程 京 
STOP = 量 选 择 。 只 能 用 于 问 前 选择 法 与 癌 后 移 除法 。 当 选择 问 前 选择 法 ， 系 统 默 认 值 为 VAR 语句 中 变 


量 数目 ; 当选 择 问 后 移 除 法 时 ， he 为 0 


例 14.4: 使 用 过 程 STEPDISC 对 数据 集 ex.cars all 进 行 判 别 分 析 。 


示例 代码 如 下 : 





Proc stepdisc method = stepwise data = ex.cars all; 


class type; 
Var Weight Wheelbase Length MPG City EngineSize; 


run; 





这 里 需要 注意 的 是 ， 在 使 用 过 程 STEPDISC 时 ， 数 据 集 ex.cars_all 中 type 为 缺失 值 的 部 分 ( 即 需 要 判断 的 数据 ) 不 会 被 用 来 计算 。 下 面 分 析 代 码 的 输出 。 


， 输 入 变量 与 


过 程 STEPDISC 首 先 输出 的 是 基本 统计 信息 ， 如 图 14.17 所 示 。 从 输出 中 也 可 以 看 出 ，type 为 缺失 值 的 部 分 并 没有 用 来 分 析 (数据 集 ex.cars_all 共 有 82 条 观测 ， 其 中 49 条 观测 为 非 缺 失 值 ) 


保留 变量 的 显著 性 水 平均 为 默认 值 0.15。 
变量 筛选 过 程 的 每 一 步 具 体 信 息 。 在 第 1 步 中 ， 模 型 中 没有 任何 变量 ， 可 供 选 择 的 变量 为 VAR 语 句 中 指定 的 变量 ， 共 有 5 个 。 根 据 引 入 变量 显著 性 水 平 闪 值 (该 值 为 0.15) ， 所 


接着 ，SAS 输 出 结果 给 
影响 最 大 的 变量 ， 即 F 值 最 大 或 者 Pr>F 值 最 小 。 因 此 ， 第 1 步 输入 的 变量 为 Weight。 具 体 如 


变量 均 符合 条 件 ( 表 中 对 应 为 Pr>F 列 的 值 均 小 于 阅 值 0.15) 。 过 程 STEPDISC 在 所 有 符合 要 求 的 变量 中 ， 选 


图 14.18 所 示 。 


SAS 系统 


STEPDISC 过 程 





选择 变量 的 方法 为 STEPW1SE 
总 样本 大 小 49 | 分 析 中 的 变量 












































输入 变量 的 显著 性 水 平 
保留 变量 的 显著 性 水 平 0 















18 | 18. 0000 | 0. 367347 
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图 14.17 STEPDISC 过 程 输出 的 基本 统计 信息 





SAS 系统 


过 量 输入 统计 分 析 , DF = 2. 46 
变量 标 答 R 方 | F 导 | Pr>F 容 整 
Weisht Weisht (LBS) | / 000 
Wheelbase Wheelbase (IN) |0.4581 | 19.44 
























Leneth |Leneth (MW 0. 2723 
MPG City MPG (City) 0. 5997 
EngineSize Engine 5ize (LL) 0 4915 22 23 < 0001 1.0000 














己 办 入 的 本 县 
We 1 eht 


多元 统计 量 
ilks Lambda | 0.375806 38.20 2 46|< 0001 | 
| Pillai 轨迹 062494 3820 2 46 | <_0001 
| 典型 相关 系数 平均 平方 0. 312097 | 














图 14.18 ”PROC STEPDISC 逐 步 选择 (一 ) 


经 过 第 1 步 后 ， 模 型 中 现 已 经 包含 了 1 个 变量 。 当 模型 中 包含 的 变量 为 非 空 时 ， 引 进 新 的 变量 会 对 之 前 已 经 存在 于 模型 中 的 变量 有 影响 。 因 此 ， 在 引进 下 一 个 新 的 变量 之 前 ， 过 程 STEPDISC 会 对 模型 中 
现 有 的 变量 进行 检验 ， 根 据 事 先 设 定 的 显著 性 水 平 冰 值 (本 例 中 为 系统 默认 值 0.15) ， 移 除 不 符合 条 件 的 变量 。 


如 图 14.19 所 示 ， 在 模型 当前 变量 中 ， 没 有 可 以 删除 的 变量 。 接 着 ,模型 考虑 引进 新 的 变量 ， 这 次 输入 模型 的 变量 为 EngineSize。 


SAS 系统 


STEPDI1SC 过 恰 
逐步 选择 : 第 2 步 


变量 删除 统计 分 析 ，DF = 2. 46 
蛮 量 村 党 R 方 |F 慎 | PryF 
Weieht | Weight (LBS) | 0 6242 | 38 20 | < 0001 





变量 输入 统计 分 析 ， DF = 2. 45 





变量 标签 本 F 值 | Pr>F 容 差 
Wheelbase | Wheelbase (IN) |0.1940| 5.42 | 0.0078 0 3220 
Leneth (IN) 0.0453| 1.07 0.3527 0 4605 
MPE_City MPG (City) 0.4414 | 17. 78 | < 0001 0 2870 




















EngineSize Engine Size (DD) 0. 4818 20.9 92 | [< 0001 0 5427 








Weight EneineSize | 


多 元 统计 量 
统计 量 值 F 值 分 子 自由 度 分 母 自由 度 Pr>F 
Nilks Lambda 0.194755 28. 48 | 4 90 | <_0001 | 


Pillai 轨迹 1 0988 
典型 相关 系数 平均 平方 0 549417 





28. 05 = 92 | <. 0001 


图 14.19 PROC STEPDISC 逐 步 选 择 (二 ) 


以 此 类 推 ， 本 例 中 ， 过 程 STEPDISC 共 进行 了 5 次 变量 的 逐步 选择 (第 5 步 ， 没 有 可 以 删除 的 变量 ， 也 没有 符合 条 件 的 输入 变量 ) ， 这 里 不 一 一 描述 。 最 终 ， 汇 总 结果 如 图 14.20 所 示 。 


逐步 选择 汇总 


平均 
平方 


偏 Wilks" Pr < 典型 Pr > 
可 个 数 已 输入 已 删 陈 标签 民 方 | 下 慎 Pr>F Lambda Lambda 相关 | ASCC 
1 1 | Weight Weight (LBS) 0. 6242 | 38. 20 <. 0001 0.37580582 | < 0001 | 0. 31209709 | <. 0001 
2 2 Enginesilze Eneine Sizeée tL |0. 4818 | 20. 92 <. 0001 0. 19475519 | <. 0001 | 0. 54941729 <. 0001 
3 3 MPG_City MPG (City) 0.1855 | 5.01 0.0109 0. 15862338 | <. 0001 | 0. 59950932 | <.0001 
年 4 Wheelbase Wheelbase (IN) | 0.1312 | 3.25 0.0486 | 0. 13781150 | 《. 0001 | 0. 62851908 | <. 0001 

图 14.20 逐步 选择 汇总 结果 
从 上 面 的 汇总 结果 中 可 以 看 出 ， 最 终 模 型 中 包含 了 4 个 变量 ， 这 4 个 变量 在 判别 分 析 中 的 重要 性 逐次 递减 。 至 此 ， 对 代码 输出 的 分 析 结 束 。 


对 于 依照 逐步 选择 法 筛选 出 来 的 变量 ， 可 以 利用 前 面 介绍 的 判别 分 析 方 法 建立 判别 函数 (判别 规则 ) ， 然 后 对 测试 数据 集 加 以 分 类 。 例 如 ， 以 下 代码 会 使 用 过 程 DISCRIM 对 STEPDISC 选 择 出 来 的 变量 
加 以 分 析 。 








proc discrim data = ex.cars types testdata = ex.cars test method = normal pool = test 
distance list testout = ex.car results; 
class type; 
var Weight EngineSize MPG City Wheelbase; 
run; 














运行 程序 后 ， 输 出 结果 与 例 14.1 类 似 ， 读 者 可 以 自行 分 析 结 果 。 


14.3 ”本章 小 结 


与 前 一 章 介绍 的 聚 类 分 析 不 同 ， 判 别 分 析 在 进行 分 类 前 ， 已 经 对 分 类 有 了 一 定 的 经 验 。 这 些 经 验 可 能 包含 在 一 个 已 经 分 好 类 的 数据 集中 ， 也 称 训练 数据 集 。 从 这 些 数 据 集中 可 以 “提炼 ”出 判别 规则 ， 
根据 这 些 判别 规则 ， 即 可 对 新 的 、 未 类 分 的 数据 进行 分 类 。 


如 果 数 据 集 符合 (多 元 ) 正 态 性 分 布 ， 那 么 可 以 采用 参数 法 ; 反之 ， 则 需要 考虑 采用 非 参 数 法 了 。 无 论 是 参数 法 还 是 非 参 数 法 都 可 以 通过 过 程 DISCRIM 实 现 。 过 程 CANDISC 和 STEPDISC 的 作用 是 分 别 
找 出 (对 判别 分 析 ) 起 作用 的 投影 方向 和 变量 。 一 般 来 说 ， 经 过 二 者 处 理 后 得 到 的 投影 方向 与 变量 个 数 都 会 少 于 原 数 据 集中 的 变量 个 数 ， 因 此 ， 从 这 个 意义 上 讲 ， 二 者 也 是 变量 降 维 的 工具 (Dimension- 
Reduction Technique) 。 经 过 过 程 步 计算 得 到 的 投影 或 变量 ， 可 以 供 DISCRIM 使 用 。 总 之 ， 我 们 要 结合 待 分 析 数 据 集 的 特征 来 选择 合适 的 判别 分 析 法 。 


第 15 草 ”回归 分 析 


变量 之 间 的 关系 ， 一 般 可 以 分 为 两 类 ， 一 类 是 函数 关系 ， 例 如 圆 的 面积 $ 与 半径 r 之 间 的 关系 S=Tr2， 和 矩形 的 周 长 L 与 两 条 边 a3 和 b 的 关系 L=2a+2b， 欧 姆 定律 指出 电压 V、 电 流 | 和 电阻 R 的 关系 是 V=1R， 
等 等 。 这 一 类 关系 的 特征 是 ， 一 个 变量 随 着 其 他 变量 的 确定 而 确定 。 另 一 类 关系 是 相关 关系 ， 这 一 类 关系 的 特征 是 ， 变 量 之 间 的 关系 很 难 用 一 种 精确 的 方法 表示 出 来 。 例 如 ， 人 的 身高 与 体重 之 间 有 一 定 的 
关系 ， 但 是 ， 由 身高 不 能 精确 地 计算 出 体重 ， 由 体重 也 不 能 精确 地 求 得 身高 。 又 如 和 人 的 年 龄 与 血压 之 间 的 关系 ， 农 业 上 的 施肥 量 与 单位 产量 之 间 的 关系 ， 等 等 。 需 要 指出 的 是 ， 函 数 天 系 与 相关 关系 之 间 没 
有 一 道明 确 的 分 界线 ， 一 方面 ， 由 于 存在 测量 误差 等 原因 ， 在 实际 问题 中 ， 消 数 关 系 往往 通过 相关 关系 表现 出 来 ， 另 一 方面 ， 当 对 事物 内 部 规律 了 解 得 更 加 深刻 时 ， 相 关 关 系 可 能 会 转化 成 确定 性 的 函数 关 
系 。 


在 前 面 的 章节 中 已 经 学 习 了 用 方差 分 析 的 方法 分 析 离 散 型 随机 变量 和 连续 型 随机 变量 之 间 的 关系 。 本 章 将 继续 学 习 运用 回归 分 析 的 方法 处 理 连 续 型 随机 变量 之 间 的 相关 关系 ， 主 要 讨论 一 个 随机 变量 与 
影响 它 的 另外 一 个 或 几 个 随机 变量 之 间 的 统计 依赖 关系 。 受 其 他 变量 影响 的 这 个 随机 变量 ， 称 为 响应 变量 (Response Variable) 或 者 因 变 量 ; 其 他 的 对 于 响应 变量 有 影响 ， 或 者 说 可 以 用 来 解释 响应 变量 
变化 的 变量 ， 称 为 解释 变量 (Predictor Variable) 或 者 自 变 量 。 自 变量 可 以 是 随机 变量 ， 也 可 以 是 普通 变量 (有 确定 取 值 的 变量 ) 。 在 后 面 的 讨论 中 ， 为 了 便于 描述 ， 对 于 随机 变量 和 普通 变量 ， 都 统称 为 


ER 旦 
冬 星 。 


所 谓 回归 分 析 ， 就 是 定量 地 研究 因 变 量 受 自 变量 影响 的 大 小 ， 并 通过 建立 回归 方程 对 因 变 量 的 取 值 进行 预测 或 控制 的 统计 方法 。 回 归 分 析 是 常用 的 一 种 数理 统计 方法 ， 在 工农 业 生产 和 科学 研究 各 个 领 
域 中 均 有 广泛 应 用 。 回 归 分 析 一 般 分 为 线性 回归 分 析 与 非 线 性 回归 分 析 。 从 统计 工程 的 角度 出 友 ， 一 般 首先 认为 变量 之 间 呈 线性 关系 ; 而 非 线性 关系 在 确定 时 ， 需 要 有 理论 的 支撑 ， 单 纯 从 数据 出 发 对 非 线 
性 关系 进行 判断 存在 一 定 的 风险 。 本 章 着 重 介绍 线性 回归 分 析 ， 它 是 两 类 回归 分 析 中 较 简 单 的 一 类 ， 也 是 被 广泛 应 用 的 一 类 。 


15.1 变量 关系 探索 


在 统计 分 析 中 ， 对 两 个 连续 型 变量 进行 回归 分 析 时 ， 第 一 个 非常 重要 的 步骤 就 是 观察 和 描述 两 个 连续 型 变量 之 间 的 关系 ， 可 以 通过 散 点 图 来 直观 地 观察 两 个 变量 的 关系 。 通 过 散 点 图 ， 可 以 查看 并 了 解 
两 个 连续 变量 的 取 值 是 否 有 异常 值 、 是 否 存 在 一 定 的 趋势 、 取 值 的 大 致 范围 等 特征 。 如 图 15.1 所 示 为 用 散 点 图 表示 两 个 变量 之 间 关 系 的 示例 : 左上 图 显示 两 个 变量 之 间 基 本 是 线性 关系 ， 即 随 着 X 的 上 升 ， 另 
一 个 变量 也 增 大 ; 右上 图 显示 两 个 变量 之 间 呈 现 出 二 次 函数 关系 ; 左下 图 显示 两 个 变量 之 间 存 在 周期 性 关系 ; 右 下 图 中 的 散 点 基本 上 均匀 分 布 在 整个 平面 上 。 可 见 ， 从 散 点 图 上 基本 判断 不 出 两 个 变量 之 间 
的 关系 。 
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图 15.1 两 个 连续 变量 之 间 的 关系 图 


15.1.1 ”皮尔 逊 相关 系数 


如 果 两 个 变量 之 间 呈 现 出 线性 关系 ， 则 称 这 两 个 变量 是 线性 相关 的 ， 否 则 两 个 变量 不 是 线性 相关 的 。 若 无 特殊 说 明 ， 后 面 在 提 到 相关 性 时 ， 都 表示 线性 相关 。 若 一 个 变量 的 值 随 着 另 一 个 变量 值 的 增 大 
而 增 大 ， 则 两 变量 正 相关 ; 若 一 个 变量 的 值 随 着 另 一 个 变量 值 的 增 大 而 减 小 ， 则 两 变量 负 相 关 。 皮 尔 逮 相关 系数 是 最 常见 的 用 来 描述 变量 线性 相关 性 的 统计 量 ， 如 图 15.2 所 示 。 在 前 面 的 章节 中 ， 已 经 介绍 
了 皮尔 逊 相关 系数 的 计算 公式 ， 这 里 将 继续 深入 介绍 惨 尔 逊 相关 系数 的 特征 。 


皮尔 逊 相关 系数 的 取 值 介 于 -1 和 1 之 间 ; 当 皮 尔 逊 相关 系数 的 取 值 接近 于 -1 或 者 1 时 ， 表 示 两 个 变量 之 间 具 有 强 相 关 性 ; 当 取 值 接近 于 0 时 ， 表 示 两 个 变量 不 是 线性 相关 的 ; 当 取 值 大 于 0 时 ， 表 示 正 相 
关 ; 当 取 值 小 于 0 时 ， 表 示 负 相关 。 有 的 时 候 ， 两 个 变量 的 相关 系数 很 大 ， 也 有 可 能 是 因为 受 其 他 变量 的 影响 。 因 此 ， 在 解释 相关 性 时 ， 特 别 需 要 注意 强 相 关 性 并 不 一 定 代表 着 一 个 变量 变化 会 导致 另 一 个 变 
量 的 变化 ; 换 名 话说， 相关 关系 不 是 因果 关系 。 


中 豚 竟 
什 相 关 下 相关 





一 ] 





相关 系数 


图 15.2 ”皮尔 进 相 关系 数 


如 图 15.3 所 示 ， 在 这 一 组 数据 中 ，X 的 取 值 绝 大 多 数 都 在 0O 和 4 之 间 ， 相 应 的 Y 的 取 值 在 0 和 2.5 之 间 ， 但 是 有 一 个 非 正常 数据 分 布 在 散 点 图 的 右上 角 ， 通 过 该 组 数据 计算 得 出 的 皮尔 逊 相关 系数 为 0.8903， 
看 上 去 X 和 Y 具 有 较 强 的 线性 相关 性 。 事 实 上 ， 绝 大 多 数 散 点 分 布 在 图 形 的 左下 角 ， 基 本 呈 水 平 直线 ， 也 就 表示 X 和 Y 之 间 不 存在 较 强 的 线性 相关 性 。 如 果 去 掉 右 上 角 的 非 正 常数 据 ， 重 新 计算 皮尔 逮 相 关系 数 
为 -0.096， 接 近 于 0。 


入 吉 轩 
15.0 甬 别 0 
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0 2 4 6 8 10 


外 
图 15.3 ”包含 极 值 时 的 皮尔 逊 相 关系 数 


通过 这 个 简单 的 例子 我 们 知道 ， 非 正常 数据 对 皮尔 逊 相关 系数 的 影响 很 大 。 在 实际 分 析 中 ， 如 果 遇 到 这 样 的 非 正 常数 据 (也 称 为 强 影 响 点 ) ， 需 要 结合 数据 的 背景 进行 取舍 。 如 果 该 数据 是 正确 的 ， 继 
续 查 看 在 该 数据 和 其 余 正常 数据 之 间 是 否 存 在 由 于 样本 选取 的 随机 性 而 漏 掉 的 数据 : 在 总 体 数据 中 可 能 存在 很 多 类 似 的 数值 ， 但 在 进行 抽样 的 过 程 中 该 群体 只 被 抽取 到 一 个 或 几 个 值 ， 这 就 使 得 其 在 样本 中 
与 其 他 样本 数据 显得 格格 不 入 ， 成 为 了 强 影响 点 ， 操 纵 着 整体 相关 系数 的 强 弱 。 在 进行 综合 的 考量 后 ， 再 决定 在 判断 相关 性 时 是 否 应 将 该 类 数据 包含 进去 。 


人 S 注 意 ”皮尔 逊 相关 系数 是 用 来 描述 线性 相关 的 统计 量 ， 当 皮尔 逊 相关 系数 的 取 值 接近 于 0 时 ， 表 示 两 个 变量 不 是 线性 相关 的 ， 但 是 并 不 代表 两 个 变量 之 间 不 存在 其 他 的 相关 性 ， 如 周期 性 。 


15.1.2 ”相关 性 检验 

相关 性 检验 是 检验 两 变量 是 否 存 在 相关 关系 的 一 种 假设 检验 。 在 该 假设 检验 中 ，p 是 表示 相关 系数 的 参数 ，y 是 通过 样本 计算 出 来 的 统计 量 ，y 是 p 的 一 个 估计 。 相 关 性 检验 的 原 假设 Ho 和 备 择 假设 H1 分 
别 为 

Ho: o=0 

Hi1: 6 去 0 


一 般 情况 下 ， 当 p 值 小 于 0.05 时 ， 拒 绝 原 假设 Ho 表示 我 们 有 足够 的 证 所 证明 相 关系 数 p 是 非 0 的 ， 也 就 说 ， 两 个 变量 之 间 的 线性 关系 是 显著 的 。p 值 的 大 小 不 能 表示 相关 性 的 强 弱 ， 并 且 p 值 的 大 小 会 受到 
样本 容量 的 影响 。 因 此 ， 在 进行 相关 性 检验 时 ， 也 要 同时 查看 统计 量 y 的 取 值 。 


15.1.3 CORR 过 程 
CORR 过 程 是 SAS 中 用 来 画 散 点 图 、 计 算 相关 系数 及 进行 相关 性 检验 的 过 程 步 ，CORR 过 程 的 基本 语法 如 下 : 


PROC CORR DATA= 数 据 集 选项 ; 
VAR 分 析 变 量 ; 

WITH 变量 ， 

ID 变量 ; 














RUN 


其 中 : 


. VAR 语 句 用 来 指定 需要 进行 相关 性 分 析 的 变量 ， 可 以 有 多 个 变量 。WITH 语 句 中 指定 的 变量 可 以 称 为 WITH 变 量 。 当 没有 使 用 WITH 语 句 时 ， 系 统 将 自动 进行 VAR 语句 中 每 两 个 变量 的 相关 性 分 析 。 当 


同时 使 用 VAR 语 名 和 WITH 语句 时 ， 系 统 将 分 别 分 析 VAR 语 名 中 的 每 个 变量 和 WITH 语句 中 每 个 变量 的 相关 性 ， 并 且 VAR 语 名 中 指定 的 变量 将 作为 相关 系数 敌阵 的 列 ，WITH 语 名 中 指定 的 变量 将 作为 相关 系 


数 矩 阵 的 行 。 
“ ID 语句 用 来 指定 ID 变量 ， 在 作 图 时 ， 通 过 ID 变量 可 以 方便 地 对 数据 进行 定位 。 


默认 情况 下 ，CORR 过 程 将 输出 皮尔 逊 相关 系数 和 对 应 的 p 值 。PROC CORR 语 句 中 的 选项 PLOTS= 可 以 指定 子 选项 ， 控 制图 形 的 输出 ， 基 本 语法 如 下 : 





PLOTS< (ONLY) ><=MATRIX< (MATRIX 选 项 ) ><SCATTER< (SCATTER 选 项 ) >>>; 














中 : 


\ 


` 使 用 子 选 项 ONLY 时， 系统 只 输出 选项 PLOTS= 指 定 的 图 形 ， 不 输出 CORR 过 程 中 其 他 默认 的 图 形 。 
* MATRIX< (MATRIX 选 项 ) >: 指定 画 出 散 点 图 答 阵 ， 即 将 多 个 散 点 图 通过 矩阵 的 形式 展现 出 来 ， 每 个 矩阵 的 元 素 是 一 个 散 点 图 。 
. SCATTER< (SCATTER 选 项 ) >: 指定 作 两 两 变量 的 散 点 图 ， 皮 尔 逊 相关 系数 将 显示 在 散 点 图 中 。 
“ 括号 中 可 用 的 MATRIX 选 项 包括 以 下 几 项 。 
* HIST|HISTOGRAM: 在 散 点 图 矩阵 中 ， 对 角 线 上 的 元 素 显 示 交 量 的 直方 图 。 


: NVAR=AIL|n: 当 VAR 语 名 中 指定 了 多 个 分 析 变 量 时 ，NVAR= 用 来 指定 需要 分 析 的 变量 个 数 。 黑 认 情 况 下 ，NVAR=5。 当 NVAR=AIL 时 ， 最 多 可 以 分 析 10 个 变量 。 该 选项 也 可 以 作为 SCATTER 选 


例 15.1: 某 大 型 服装 连锁 销售 机 构 希 望 对 各 门店 年 收入 情况 进行 研究 ， 分 析 哪 些 因素 和 各 门店 的 年 收入 相关 。 数 据 集 ex.retail 中 包含 了 各 门店 的 收入 状况 及 相关 数据 ， 以 下 是 数据 集中 各 变量 的 名 称 和 摘 


.StoteID: 各 门店 ID 号 。 

: Revenue: 最 近 一 年 门店 的 年 收入 ， 以 万 元 为 单位 。 
Member: 门店 销售 人 员 人 数 。 

Square; 门店 展示 面积 。 

. Inventoty: 月 均 库存 量 ， 以 万 元 为 单位 。 

. Loyalty: 门店 会 员 人 数 。 

Population: 门店 日 均 客流 量 。 

Tenure: 门店 从 开业 至 今 的 时 间 ， 以 月 为 单位 。 


示例 代码 如 下 : 


ods graphics /reset=all imagemap; 

title "Correlations and Scatter plots with Revenue"; 

proc corr data=ex.retailrank plots (only)=scatter (ellipse=none nvar=all) ， 
var Member Square Inventory Loyalty Population Tenure; 
with Revenue; 

TD StorelID; 





























run; 


上 述 程序 中 运用 CORR 过 程 步 分 析 了 变量 Member、Sdquare、lnventory、Loyalty、Population 和 Tenure 与 Revenue 的 关系 ， 并 且 作 出 了 散 点 图 。 在 ODS GRAPHICS 语句 中 使 用 选项 IMAGEMAP 可 以 
使 得 在 HTML 输 出 的 散 点 图 中 ， 当 鼠标 放 到 某 一 个 散 点 时 ， 系 统 就 会 自动 显示 观测 的 信息 。 在 本 例 中 ， 当 鼠标 放 到 某 个 散 点 时 ， 系 统 会 自动 显示 X 轴 变量 、Y 轴 变量 (Revenue) 、 观 测 号 及 storelD。 


选项 RANK 使 得 输出 报表 中 的 皮尔 逊 相关 系数 按 从 大 到 小 的 顺序 排列 。 选 项 PLOTS 使 得 系统 作出 散 点 图 。 


输出 内 容 如 图 15.4 所 示 。 默 认 情 况 下 ， 系 统 首先 输出 WITH 变量 和 分 析 变 量 的 简单 统计 量 ， 然 后 输出 相关 变量 的 皮尔 逊 相关 系数 ， 以 及 相应 的 P 值 。 


Correlations and Scatter plots with Revenue 
CORR 过 程 
1 WITH 计量 - | REewenue 
6 变 蛙 - Member Square Inventory Loyalty Population Tenure 








简单 统计 号 
记忆 N| 均值 标准 差 ， 总 和 |。 昌 小 值 。。 最 大 值 
Ruwenue | 100 119.39773 27.351002 11940 42.28821 192.65139 








Member | 100 1.75522 | 470.00000 2.00000 | 9.00000 
Square | 100 13.61259 5948 | 27.00000 | 95.00000 
Imventory | 100 6.13480 1505 | 6.00000 | 30.08048 
100 36 42064 9496 | 31.00000 | 180.00000 

17 .06465 | 86035 | 816.00000 | 895.00000 
Tenue |100 21.80210 5704 | 17.00000 | 107.00000 





Pearson 相关 系数 . N = 100 
Prob > ld under HO: Rho=0 


Rpwer Square | Populaton Inventory Member Loyalty | Tenure 
O73147 0.Ss5098 0.34030 | .09457 0.08827 0.07893 
< OO1 <.0001 O0005 | 0.3493 | 3Bo 0.4351 





图 15.4 例 15.1 中 描述 性 统计 量 和 皮尔 逊 相 关系 数 报表 


可 以 看 到 ，Revenue 和 39quare 相 关系 数 的 估计 是 0.73147，P 值 <0.0001， 表 明 相 关系 数 显 著 不 为 0，Revenue 和 939quare 是 显著 正 相关 的 。 第 二 大 的 皮尔 逊 相关 系数 的 估计 是 0.55098， 它 是 Revenue 和 
Population 的 相关 系数 。 


散 点 图 如 图 15.5 所 示 。 


从 相关 系数 和 散 点 图 来 看 ，Square、Population 和 Revenue 的 相关 性 较 强 ， 暗 示 了 这 两 个 变量 对 Revenue 可 能 具有 较 好 的 预测 能 力 。 
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图 15.5 ” 例 15.1 输 出 的 散 点 图 
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图 15.5 ”( 续 ) 


是 回归 分 析 的 目的 ， 因 此 ， 在 这 里 ，Revenue 是 因 变 量 ，Square、Population 和 Tenure 等 都 是 自 变量 。 在 前 面 的 相关 分 析 中 ， 已 经 分 析 了 各 自 变量 
程 来 计算 并 输出 变量 两 两 之 间 的 相关 系数 。 


ixf 


在 上 面 的 例子 中 ， 希 望 预测 的 是 门店 的 年 收入 ,i 
与 因 变量 之 间 是 否 存 在 相关 关系 。 现 在 ,使 用 CORRi 


[i 


例 15.2: 接着 例 15.1， 计 算 各 自 变 量 之 间 的 相关 系数 。 


示例 代码 如 下 : 


ods graphics /reset=all } 

title "Correlations and Scatter Plot Matrix of Revenue Predictors"; 

proc corr data=ex.retail nosimple plots=matrix (histogram nvar=all) ， 
var Member Square Inventory Loyalty Population Tenure; 

run; 




















程序 中 的 选项 NOSIMPLE 指 定 不 输出 基本 统计 量 报表 。 


输出 内 容 如 图 15.6 所 示 。 


Correlabons and Scatter Plot Matinx of Revenue Predictors 


CORR 过 程 


石村 最 : _Member Square Irventory Lovalty Population Tenure 











Member 


Member | 1.00000 


0.16082 
0.1100 


Irmventory | 0.1486; 
0.1399 


Lovaly | 0.98532 
<.0001 


0.18710 
0.0623 


Tenure 0 98118 
< O001 








上 面 的 相关 系数 矩阵 中 输出 了 自 变 量 的 两 两 相关 系数 及 P 值 ， 


15.7 所 示 的 散 点 图 也 从 细节 上 说 明了 该 情形 。 


QB 0143/3 
<s.0001 0.1537 


056708 | 100000 | 0.13410 043965 0.13239 


<.DOO1 0.1258 <.ObU1 0.1892 
D1i6386 | Us4I0 1.00000 D18855 | 96309 
U.U9S9 1 0.1258 0.0603 <.0001 


QB O43965 | 0.188-> 1.00000 0.193006 
s.0001 2.Dool | 0.0603 0.0582 


0.14373 | 0.13239 0.96369 0.19006 | 1.00000 
0.1537 | 0.1892 | <0001 0.0582 


图 15.6” 例 15.2 输 出 两 两 变量 的 皮尔 逊 相关 系数 报表 


Loyalty 和 Member 的 相关 系数 为 0.98532，Tenure 和 Member 的 相关 系数 为 0.98118， 相 应 的 p 值 都 很 小 ， 说 明 它 们 之 间 是 显著 相关 的 。 如 










































































图 15.7 例 15.2 输 出 散 点 矩阵 图 


15.2 ”线性 回归 


在 本 章 第 一 节 中 ， 运 用 相关 分 析 定 量 分 析 了 因 变 量 和 自 变 量 的 相关 性 。 然 而 ， 即 使 两 组 变量 的 相关 系数 相同 ， 线 性 关系 也 可 能 是 完全 不 一 样 的 ， 如 图 15.8 所 示 。 图 中 这 两 组 数据 的 相关 系数 都 为 0.99， 
但 是 代表 的 线性 趋势 却 大 不 相同 。 换 句 话 说 ， 相 关系 数 并 不 能 量化 因 变 量 受 自 变 量 影响 的 大 小 。 在 本 节 中 ， 将 介绍 如 何 具体 量化 因 变 量 和 自 变 量 之 间 的 线性 关系 ， 并 建立 基于 自 变 量 的 回归 方程 来 预测 因 变 
量 的 取 值 。 在 实际 应 用 中 ， 回 归 方 程 通常 是 未 知 的 ， 回 归 分 析 的 任务 是 根据 样本 数据 估计 回归 方程 ， 讨 论 有 关 回归 系数 的 点 估计 、 区 间 估 计 、 假 设 检 验 等 问题 ， 重 要 的 是 根据 自 变 量 x 的 取 值 对 因 变量 y 作 出 
预测 。 


0 10 20 30 40 


图 15.8 ”两 组 数据 的 散 点 图 


15.2.1 基本 原理 


在 一 元 线性 回归 中 ， 假 设 因 变量 y 和 自 变量 x 具有 的 线性 关系 为 y=Bo+B1x+s， 其 中 Bo 是 截 距 ， 也 就 是 当 x=0 时 响应 变量 的 取 值 ，B1 是 斜率 ， 代 表 当 自 变 量 x 变 化 一 个 单位 时 ， 因 变量 改变 的 量 ;，e 是 随机 
误差 ， 代 表 y 与 Bo+B1x 的 差异 。 一 般 情况 下 ， 影 响 y 的 自 变 量 往往 不 止 一 个 ,假设 有 x1，x2，.…，xk，K 个 解释 变量 ， 考 虑 如 下 的 线性 关系 式 : 


y=BotB1x1t+B2x2+"**+BEXE+e, B; (i=1, *…, k) 
该 式 表示 当 自 变量 xi 变化 一 个 单位 ， 而 其 余 自 变量 都 保持 不 变 时 ， 因 变量 改变 的 量 。 以 一 元 线性 回归 为 例 ， 对 于 样本 点 (Xx1，y1) ， (x2，y2) ，.…， (xn，yn) ， 相 应 的 随机 误差 sj=yi- 


Bo+B1xi，i=1，.…，n。 线 性 回归 对 随机 误差 sf 有 如 下 假设 条 件 ，si 必 须 是 独立 同 分 布 的 ， 且 si~N (0，02) 。 


以 一 元 线性 回归 为 例 ， 要 估计 总 体 的 参数 (Bo，B1) ， 常 用 的 最 小 二 乘 估计 法 的 基本 思想 是 ， 通 过 样本 计算 出 参数 的 估计 值 使 得 预测 值 与 实际 值 之 间 的 差异 最 小 ， 即 ， 


n 


Min © = (yy,- (Bo + Bix,))’ 


其 中 y 是 因 变量 的 实际 值 ，xj 是 自 变量 的 值 ，n 是 样本 容量 ，‘%. A 就 是 总 体 参 数 (Bo，B1) 的 最 小 二 乘 估 计 。 可 以 证 明 ， (Bo，B1) 的 最 小 二 乘 估 计 '%. 是 最 优 线性 无 偏 估 计 (Best Linear Unbiased 
Estimators，BLUE) ， 也 就 是 极 大 似 然 估计 。 


为 了 便于 后 面 的 讲解 ， 先 来 回顾 一 下 几 个 统计 学 中 的 名 词 : 

. 全 部 平方 和 (Totalsum of squates，SST) : 指 的 是 响应 变量 的 方差 ， 等 于 并 (Yi-Y)“， 也 称 为 总 变异 性 ， 其 中 ，Yi 是 响应 变量 的 观测 值 ，Y 是 响应 变量 的 均值 。 
. 模型 平方 和 (Model sum of squares，SSM) : 指 的 是 回归 模型 和 响应 变量 均值 的 差异 ， 等 于 > 07 其中， 是 响应 变量 的 预测 值 。 

误差 平方 和 (Error sum of squares，SSE) : 指 的 是 回归 模型 和 实际 观测 值 之 间 的 差异 ， 等 于 ZGr-i ,该 部 分 是 由 其 他 未 能 控制 的 随机 干扰 因素 引起 的 。 


可 以 证 明 ，>073 70*Y077. 即 总 变异 性 可 以 分 解 为 等 式 右边 的 两 部 分 ， 第 一 部 分 可 以 通过 回归 模型 刻画 出 来 ， 也 称 为 模型 解释 的 变异 性 (Explained Variability) ， 第 二 部 分 不 能 通过 回归 模型 体现 出 
来 ， 称 为 模型 未 解释 的 变异 性 (Unexplained Variability) 。 用 图 形 表示 如 图 15.9 所 示 。 
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图 15.9 ”变异 性 图 示 


` R 方 (R Square) ， 也 记 为 "2 表示 模型 解释 的 变异 占 总 变异 性 的 百分比 ，R 方 的 取 值 在 0 和 1 之 间 ，R 方 越 大 越 好 ， 其 越 大 则 表示 模型 解释 的 变异 的 比重 越 大 ， 模 型 拟 合 得 越 好 ， 是 评价 模型 拟 合 
优 度 的 重要 指标 。 
. 调整 的 R 方 (AdjustedR Square) -一 n 是 样本 容量 ，p 是 参数 个 数 。 当 回归 方程 存在 截 距 时 ，i=1; 否则 ，i=0。 在 进行 多 元 线性 回归 时 ， 随 着 模型 中 变量 个 数 的 增加 ，R 方 也 会 增 大 ， 容 易 形 


成 “ 自 变 量 越 多 模型 拟 合 得 越 好 ”的 错误 判断 。 此 时 应 参考 调整 的 R 方 来 判断 模型 的 拟 合 优 度 。 


15.2.2 假设 检验 


1. 线 性 模型 的 显著 性 检验 


在 上 面 的 讨论 中 ， 假 定 y 关 于 x 的 回归 y (x) 具体 形式 为 : Bo+B1x1+B2X2+.…+BkXk+sE， 在 处 理 实际 问题 时 ，y 是 否 与 xX1，Xx2，.…，Xk 县 有 线性 关系 ,首先 要 根据 有 关 专 业 知 识 和 实践 来 判断 ， 其 次 就 要 
根据 实际 样本 数据 运用 假设 检验 的 方法 来 判断 。 换 句 话 说 ， 求 得 的 线性 回归 方程 是 否 具 有 实用 价值 ， 一 般 来 说 ， 需 要 经 过 假设 检验 才能 确定 。 若 线性 模型 y=Bo+B1x1+B2x2+…+Bkxk+s 符 合 实际 ， 则 
B1，B2，…，Bk 不 应 全 为 0， 倘 若 B1=B2=…=Bk=0， 则 y 就 不 依赖 于 x1，x2，…，Xxk 了 。 我 们 希望 有 充分 的 理由 来 证 明 线性 模型 是 符合 实际 的 ， 因 此 需要 进行 如 下 假设 检验 : 


Ho: B1=B2=***=Bk=0, 





Hi: B1; Bz, 四 Bk 不 全 为 0 
当 Ho 成 立时 ， 模 型 退化 为 y=BoO，w 一“"““" w=“ 一 记 为 F， 由 方差 分 析 知 ， 当 Ho 成 立时 ， 即 B1=B2=.…=Bk=0 符 合 实际 ， 误 差 主 要 由 随机 误差 产生 ， 所 以 F 的 取 值 应 较 小 。F 分 布 的 示意 图 如 图 15.10 所 


个 \。 


当 给 定 显著 性 水 平 x 后 ，F1-o 就 是 F 分 布 位 于 1-a 处 的 分 位 数 (如 图 15.10 所 示 ) ， 如 果 由 样本 计算 出 F 的 值 大 于 F1-c， 则 说 明 在 显著 性 水 平 c 下 ， 有 足够 的 证 据 证 明 原 假设 Ho 不 成 立 ， 应 拒绝 Ho， 即 认为 
y 与 X1，X2，.…，Xk 显 著 地 具有 线性 关系 ; 否则 ， 接 受 Ho， 认 为 y 与 x1，x2，.…，Xk 之 间 的 线性 关系 不 显著 。 线 性 关系 不 显著 的 原因 可 能 有 如 下 几 种 : 


` 影响 y 取 值 的 ， 除 x1，x2，…， 对 及 随机 误差 外 ， 还 有 其 他 不 可 忽略 的 因素 。 
. y 与 XI，x2，…，XI 的 关系 不 是 线性 的 ， 而 是 存在 着 其 他 的 关系 。 
` 了 与 x1 ，x2，…， 允 不 存在 关系 。 
当 线 性 关系 不 显著 时 ， 需 要 进一步 分 析 原 因 ， 分 别 进行 处 理 。 
2. 回 归 系 数 的 显著 性 检验 


如 果 经 检验 得 知 y 与 X1，X2，.…，Xk 之 间 具 有 显著 的 线性 关系 ， 但 是 每 个 自 变量 对 因 变 量 y 的 影响 作用 并 不 是 一 样 重 要 的 ， 可 能 有 的 起 重要 作用 ， 有 的 则 可 有 可 无 。 因 此 ， 在 否定 线性 模型 所 有 自 变量 的 
系数 全 部 为 0 之 后 ， 还 需 从 线性 模型 中 剔除 那些 可 有 可 无 的 自 变量 ， 保 留 那 些 比较 重要 的 自 变量 ， 重 新 建立 更 为 简单 的 线性 回归 方程 ， 以 便 更 有 利于 实际 应 用 。 
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图 15.10 了 分 布 -概率 分 布 函 数 示意 图 
对 某 个 回归 系数 进行 显著 性 检验 的 原 假设 和 备 择 假设 分 别 如 下 : 
Hoi: Bi=0, i=0, 1, 2, :…, k 


Hi1;: 人 去 0 


可 通过 构造 1 统计 量 或 者 F 统 计量 ， 根 据 T 分 布 或 者 F 分 布 的 理论 来 对 回归 系数 进行 检验 ， 在 SAS 中 ，REG 过 程 应 用 T 检 验 法 可 进行 回归 系数 的 显著 性 检验 ， 并 且 可 输出 T 值 和 相应 的 P 值 。 当 P 值 很 小 时 ,说 
明 应 拒绝 原 假设 ， 对 应 的 回归 系数 显著 不 为 0。 


3. 残 差 检验 

前 面 进行 回归 分 析 时 ， 假 设 条 件 是 残 差 6 是 独立 同 分 布 的 ， 且 服从 N (0，o*) 。 因 此 在 确定 了 回归 方程 之 后 ， 要 回 过 头 来 查看 残 差 是 否 服从 假设 条 件 。 如 果 残 差 不 服 从 假设 条 件 ， 则 需要 重新 考虑 回归 
方程 的 形式 和 参数 估计 。 

下 面 来 看 几 幅 残 差 散 点 图 ， 如 图 15.11 所 示 。 这 些 都 是 关于 自 变 量 取 值 的 残 差 图 ， 以 自 变 量 值 为 横 坐 标 ， 残 差 值 为 纵 坐标 。 

根据 图 15.11 可 以 看 出 以 下 几 点 : 

` 如 果 残 差 是 独立 同 分 布 的 ， 且 服从 N (0,，o”) ， 那 么 各 个 点 应 该 随机 地 分 布 在 残 差 散 点 图 上 ， 类 似 左 上 图 ， 没 有 任何 规律 和 模式 。 

. 右上 图 中 ， 残 差 随 着 自 变量 的 取 值 呈 现 出 二 次 函数 的 形状 ， 说 明 回归 方程 没有 将 该 自 变量 的 某 些 规律 刻画 出 来 ， 可 以 尝试 在 回归 方程 中 添加 该 自 变量 的 一 个 二 次 项 。 


* 左下 图 说 明 残 差 的 方差 不 是 齐 性 的 ， 随 着 自 变 量 的 取 值 增 大 ， 方 差 增 大 ， 这 种 情况 下 可 以 尝试 将 因 变 量 做 一 个 转换 。 或 者 尝试 其 他 不 需要 方差 齐 性 假设 的 模型 ， 可 参考 GENMOD 过 程 或 者 GLIMMIX 


过 程 。 


` 右 下 图 说 明 残 差 不 是 独立 的 。 在 这 幅 图 中 ， 残 差 是 自 相 关 的 ， 当 数据 和 时 间 相关 时 ， 比 较 容易 出 现 该 种 情形 。 可 以 尝试 使 用 AUTOREG 过 程 进 行 建 模 (后 面 章节 中 的 时 间 序 列 分 析 会 介绍 如 何 使 用 
AUTOREG 进 行 建 模 ) 。 


当 进 行 多 元 线性 回归 时 ， 可 以 分 别 作出 关于 各 自 变 量 的 残 差 图 ， 判 断 是 否 各 自 变量 中 的 规律 是 否 都 已 经 被 提取 出 来 了 。 














图 15.11 残 差 散 点 图 


15.2.3 ”模型 拟 合 


运用 REG 过 程 建立 线性 模型 ， 基 本 语法 如 下 : 


PROC REG DATA= 数 据 集 选项 ; 
MODEL 因 变量 = 自 变 量 1 < 自 变 量 2 .></ 选 项 >; 

RUN; 

QUIT; 




















其 中 : 
MODEL 语 句 用 来 指定 因 交 量 和 自 交 量 ， 因 交 量 和 自 交 量 必 须 都 是 数值 型 变量 ， 当 只 指定 一 个 自 变 量 上 时， 建立 一 元 线性 回归 方程 ， 若 指定 多 个 自 变 量 ， 则 建立 多 元 线性 回归 方程 。 


` 使 用 REG 过 程 时 ， 在 QUIT 语 和 句 之 前 RUN 语 和 句 之 后 ， 可 以 任意 添加 适用 于 REG 过 程 的 语句 ， 而 不 需要 重新 提交 PROC REG 语 句 ， 这 种 用 法 也 称 之 为 RUN 组 用 法 。 在 SAS 中 ， 不 少 过 程 步 都 支持 RUN 组 用 


法 ， 如 GPLOT 过 程 和 GCHART 过 程 等 。 
例 15.3: 从 例 15.1 中 ， 已 经 得 知 变量 Revenue 和 Square 之 间 显著 线性 相关 。， 本 例 将 调用 REG 过 程 来 分 析 它们 之 间 存 在 何 种 线性 关系 ， 其 中 ，Revenue 是 因 变量 ，Square 是 自 变量 ， 


示例 代码 如 下 : 


title "Predicting Revenue from Square"; 
proc reg data=ex.retail; 
model Revenue=Square; 
run; 
quit; 





REG 过 程 输出 的 第 一 个 报表 显示 读 取 的 观测 数 和 使 用 的 观测 数 一 样 ， 如 图 15.12 所 示 。 表 明 变 量 Revenue 和 Square 都 没有 缺失 值 。 


第 二 个 方差 分 析 报 表 中 输出 了 线性 模型 显著 性 检验 的 结果 ， 如 图 15.13 所 示 。 








图 15.13 ” 例 15.3 输 出 线性 模型 显著 性 检验 报表 


其 中 ，“ 源 ”主要 是 指 变异 性 的 来 源 ， 源 的 取 值 有 3 个 ， 分 别 为 模型 、 误 差 和 校正 合计 ， 分 别 代表 回归 方程 解释 的 变异 性 、 回 归 模型 未 解释 的 变异 性 及 总 变异 性 。 在 图 15.13 中 ， 平 方 和 这 一 列 代表 变异 
性 的 数值 ， 对 应 于 模型 、 误 差 和 校正 合计 3 个 源 ， 其 值 分 别 为 本 章 在 前 面 介 绍 的 SSM、SsE 及 SST 的 取 值 。 这 里 的 F 值 =112.78， 对 应 的 P 值 <0.0001， 因 此 ， 根 据 本 章 “假设 检验 ”章节 中 关于 “线性 模型 的 显 


著 性 检验 ”的 介绍 ， 可 以 判断 Revenue 与 Square 具有 显著 的 线性 关系 。 
第 三 个 报表 输出 了 模型 拟 合 优 度 信息 ， 如 图 15.14 所 示 。 


R 方 的 取 值 介 于 0 和 1 之 间 ， 代 表 模 型 解释 的 变异 性 占 总 变异 性 的 比重 。 在 这 个 示例 中 ，R 方 =0.5351， 表 示 回归 模型 能 够 解释 响应 变量 54% 的 变异 。 在 一 元 线性 回归 中 ，R 方 的 取 值 等 于 皮尔 逊 相关 系数 
的 平方 


第 四 个 报表 输出 了 回归 模型 的 参数 估计 和 假设 检验 结果 ， 如 图 15.15 所 示 。 


这 里 Intercept 和 Square 的 回归 系数 对 应 的 T 值 为 3.71 和 10.62， 相 应 的 P 值 都 小 于 0.05， 根 据 15.2.2 节 “假设 检验 ”中 关于 “回归 系数 的 显著 性 检验 ”的 知识 可 知 ，Intercept 和 Square 的 系数 都 是 显著 不 
为 0。 


18.85371 | 民 方 0.5351 
119.39773 





0 503 





15.79U68 

















图 15.14 ” 例 15.3 模 型 拟 合 优 度 信息 





过 昌 | 自由 度 + 值 Pr> 叶 
1 31.4712 | 6849135 3.71 11100003 
1 147823 01390 10.62 | <.0001 





图 15.15” 例 15.3 中 国 归 模型 的 参数 估计 和 假设 检验 报表 


因为 Bo ( 即 Intercept) 和 B1 ( 即 Square 的 回归 系数 ) 的 估计 为 31.47125 和 1.47825， 所 以 回归 方程 为 Revenue=31.47125+1.47825xSquare。 该 模型 说 明 Square 每 增加 一 个 单位 ，Revenue 将 增加 
1.47825 个 单位 。 当 然 ， 在 对 模型 进行 解释 的 时 候 ， 一 定 要 注意 自 变量 的 取 值 范围 。 


接 下 来 输出 模型 的 拟 合 诊断 信息 和 残 差 信息 ， 如 图 15.16 和 图 15.17 所 示 。 这 些 图 形 可 以 帮助 判断 样本 是 否 满足 回归 分 析 的 假设 条 件 ， 以 及 是 否 包 售 强 影响 点 (Influential Observations) 。 
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图 15.16 ” 例 15.3 中 回归 模型 的 拟 合 诊断 面板 


五 差 : Revenue 
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图 15.17 例 15.3 中 国 归 模型 的 残 差 图 


需要 指出 的 是 ， 拟 合 诊断 面板 中 输出 的 是 关于 预测 值 的 残 差 图 ( 拟 合 诊断 : Revenue 的 左上 角 图 ) ， 它 以 因 变 量 的 预测 值 为 横 坐 标 ， 对 应 的 残 差 值 为 纵 坐 标 ,该 图 可 以 从 总 体 上 检验 残 差 是 否 满 足 回 归 
分 析 的 假设 条 件 。 该 图 与 以 自 变量 取 值 为 横 坐 标 、 残 差 值 为 纵 坐 标的 残 差 图 有 所 区 别 ， 对 于 自 变量 的 残 差 图 ， 可 以 按 自 变量 检查 残 差 的 分 布 ， 判 断 是 否 有 信息 没有 能 够 从 自 变量 中 被 提取 出 来 。 


是 从 拟 合 诊断 面板 中 的 残 差 图 中 ， 还 是 从 自 变 量 的 残 差 图 中 ， 我 们 都 可 以 观察 到 ， 残 差 随机 地 分 布 在 整个 残 差 图 上 ; 从 QQ 图 中 ， 可 以 判断 残 差 基 本 服从 正 态 分 布 ， 也 就 说 ， 这 组 数据 满足 回归 分 析 
的 假设 条 件 。 除 了 在 REG 过 程 中 通过 QQ 图 和 直方 图 直观 检查 残 差 的 正 态 性 以 外 ， 也 可 以 通过 UNIVARIATE 过 程 中 的 选项 NORMAL 对 正 态 性 进行 严格 的 检验 (UNIVARIATE 过 程 中 已 经 介绍 过 ) ， 只 是 ， 这 
时 需要 先 通过 OUTPUT 语 句 将 残 差 从 REG 过 程 中 输出 。 


强 影 响 点 的 判断 可 以 借助 于 统计 量 RSTUDENT、Cook's D、DFFITS 和 DFBETAS。 在 图 15.16 中 ， 仔 细 观 察 右上 两 张 RSTUDENT 图 ， 超 出 上 下 两 根 横 线 (Cutoff) 的 点 就 是 辨识 出 的 强 影响 点 ， 此 外 ,， 
在 Cook's D 图 中 也 找 出 了 两 个 强 影 响 点 。 在 MODEL 语 句 中 使 用 选项 INFLUENCE， 可 以 输出 上 述 统计 量 ， 语 法 如 下 : 




















MODEIL 因 变量 = 自 变 量 1 < 自 变量 2 .>/ INELUENCE 

















接 下 来 输出 的 是 回归 模型 的 拟 合 图 ， 如 图 15.18 所 示 。 


拟 合 图 提供 了 预测 的 精度 ， 其 中 深 颜色 的 部 分 是 响应 变量 均值 的 95% 置 信 限 ， 两 条 虚线 表示 响应 变量 的 95% 预 测 限 。 这 里 ，Revenue 的 均值 的 95% 置 信 限 ， 表 示 当 自 变量 Square 等 于 某 一 值 
时 ，Revenue 的 均值 有 95% 的 可 能 性 落 在 该 置信 限 内 ;Revenue 的 95% 预 测 限 ， 表 示 当 Square 等 于 某 一 值 时 ，Revenue 的 取 值 有 95% 的 可 能 性 落 在 预测 限 内 。 在 MODEL 语 句 中 使 用 选项 CLM 和 CLI 可 以 输 
出 置信 限 和 预测 限 报表 ， 语 法 如 下 : 





























MODEI 因 变量 = 自 变 量 1 < 自 变 量 2 ...>/ CIMCLI; 


拟 合 图 : Revenue 
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图 15.18 例 15.3 中 回归 模型 的 拟 合 图 


15.2.4 ”模型 选择 

上 面 的 例子 只 在 模型 中 引入 了 一 个 自 变 量 ， 当 有 多 个 自 变 量 的 时 候 ， 如 何 进行 自 变量 的 筛选 呢 ? 是 不 是 所 有 的 自 变量 都 应 该 被 引入 到 回归 方程 中 呢 ? 如 果 不 是 ， 该 如 何 决定 哪些 自 变 量 该 保留 下 来 ， 哪 
些 自 变 量 该 被 剔除 出 模型 呢 ? 哪个 模型 又 拟 合 得 最 好 呢 ? 
1. 全 部 选择 法 

当 用 户 在 拟 合 回归 方程 时 ， 若 对 自 变 量 的 选择 没有 任何 先 验 经 验 ， 可 以 在 REG 过 程 中 的 MODEL 语 句 里 使 用 选项 SELECTION = ， 自 动 拟 合 包含 所 有 可 能 自 变 量 组 合 的 模型 。 例 如 ， 当 有 7 个 自 变 量 时 ， 每 
个 自 变量 都 有 进入 模型 或 者 不 进入 模型 两 种 可 能 ， 那 么 总 共 就 有 27=128 个 可 能 模型 ， 在 使 用 选项 SELECTION = 时 ， 系 统 将 自动 拟 合 128 个 模型 。 使 用 该 选项 的 语法 如 下 : 



































MODEL 因 变量 = 自 变 量 1 自 变 量 2 ... /SELECTION= RSQUAREADJRSQ CP BEST=n; 








选项 SELECTION= 的 取 值 可 以 为 RSQUARE、ADJRSQ、CP 中 的 任意 组 合 ,例如 ，SELECTION=RSQUARE ADJRSQ CP 或 者 SELECTION=ADJRSQ RSQUARE CP。REG 过 程 在 输出 模型 时 ， 将 按照 排 
在 第 一 位 的 统计 量 (RSQUARE、ADJRSQ、CP 中 的 某 一 个 ) 的 取 值 ， 对 包含 相同 自 变量 个 数 的 模型 由 好 到 坏 进行 排列 ， 并 同时 输出 其 余 统 计量 。 此 外 ，MODEL 语 句 中 的 选项 BEST=n 在 选项 SELECTION 的 
不 同 取 值 下 有 不 同 的 作用 效果 。 


当 SELECIION=RSQAURE 时，BEST=n 使 得 系统 将 不 同 的 模型 按 所 含 自 变量 的 个 数 分 成 不 同 的 组 ， 自 变量 个 数 相同 的 模型 在 同一 组 中 ， 在 每 一 组 中 ， 输 出 前 n 个 拟 合 得 最 好 的 模型 。 
. 当 SELECTION=CP 或 者 ADJRSQ 时 ， 选 项 BEST=n 将 使 得 系统 输出 所 有 模型 中 拟 合 得 最 好 的 前 n 个 模型 。 
例 15.4: 调用 REG 过 程 为 响应 变量 Revenue 拟 合 回归 模型 ， 考 虑 所 有 可 能 的 自 变 量 。 


示例 代码 如 下 : 





ods graphics / imagemap=on; 
title "Best Models Using All-Regression Option"; 
proc reg data=ex.retail plots (only)=(rsquare adjrsq cp); 
ALL REG: model Revenue=Member Square InVentory Loyalty Population Tenure 
/ selection=rsquare adjrsg cp; 























Yrs 
quit; 





输出 内 容 如 图 15.19 所 示 。 


Best Models Usmng All-Regression Ophon 
































0.0089 | _0012 | 107.9833 | Member 
0.0078 | -.0023 | 108.2205 | Loyalty 
0.0062 | -.0039 | 108.5419 | Tenure 
| 0.5432 | 05338 0.0131 | Square Inventory 
| 1.4659 | Square Loyalty 
| 0.5358 | 05262| 1.5528 | Square Tenure 




















一 | 一 一 一 一 


= | | 可 | 配 | 本 | 配 














Bm mn | ~、 


SN 
天 
一 
KD 
全 


一 一 



























































10 | 2 | 0.5357 | 0.5262 | 1.5555 | Square Population 
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图 15.19” 例 15.4 输 出 模型 
图 15.19 是 部 分 模型 输出 结果 ， 因 为 总 共有 26= 64 个 模型 ， 可 以 通过 散 点 图 来 更 直观 地 查看 模型 输出 结果 ， 如 图 15.20 所 示 。R 方 图 将 所 有 模型 的 R 方 值 显示 在 了 图 中 ， 随 着 模型 中 参数 个 数 的 增加 ，R 方 


将 增 大 ， 按 照 R 方 的 取 值 大 小 来 看 ， 显 然 全 参数 模型 是 最 好 的 模型 ， 因 此 ， 只 能 通过 R 方 比较 具有 相同 参数 数量 的 模型 。 调 整 后 的 R 方 图 和 先前 的 R 方 图 不 一 样 ， 调 整 后 的 R 方 图 中 显示 最 好 的 模型 是 含 2~ 3 个 
参数 ( 包 合 截 距 项 ) 的 模型 。 


以 下 对 象 的 拟 合 条 件 : Revenue 以 下 对 象 的 拟 合 条 件 : Revenue 
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调整 R 方 





















































参数 个 数 参数 个 数 
认 以 参数 个 数 计算 的 最 值 模型 食 以 参数 个 数 计算 的 最 佳 模型 


图 15.20” 例 15.4 输 出 的 R 方 散 点 图 和 调整 R 方 散 点 图 


如 图 15.21 所 示 是 全 部 异型 的 C 散 点 图 。 在 观察 C 进行 模型 选择 时 ， 有 以 下 两 个 准则 : 


. 一 个 是 Mallows 准 则 ， 满 足 该 准则 的 模型 的 C, 必 须 小 于 等 于 p (p 表 示 模 型 包含 的 参数 个 数 ， 截 距 项 也 看 成 一 个 参数 ， 个 数 包含 在 p 中 ) ， 该 准则 主要 适用 于 预测 。 
. 另 一 个 准则 是 Hocking 准 则 ， 满 足 该 准则 的 模型 的 C, 必 须 小 于 等 于 2p-pan+1， 该 准则 主要 适用 于 参数 估计 和 对 因 变 量 的 解释 。 


图 15.21 中 直线 Mallows 代 表 p， 当 分 析 的 目的 是 预测 时 ， 应 重点 考察 落 在 直线 Mallows 下 面 的 模型 ， 直 线 Hocking 代 表 2p-pful+1 (pful| 表 示 所 有 参数 的 个 数 ， 截 距 项 看 成 一 个 参数 ， 个 数 包含 在 
pful 中 ) ， 当 分 析 的 目的 是 进行 参数 估计 和 解释 时 ， 应 重点 考察 落 在 直线 Hocking 下 面 的 模型 。 


以 下 对 象 的 拟 合 旬 件 : Revenue 
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Mallows CLp) 
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彬 数 个 驻 
一 Malliows 一 一 Hocong 广 以 参 葵 个 于 计算 的 最 健 则 虹 


图 15.21 例 15.4 输 出 多 个 模型 Ch 的 散 点 图 


这 里 模型 的 Cp 值 比较 密集 ， 因 此 可 以 选择 在 图 中 只 显示 Cp 比较 小 的 几 个 模型 。 代 码 如 下 : 





proc reg data=ex.retail plots (only)= (cp); 
ALL REG: model Revenue=Member Square Inventory Loyalty Population Tenure / 
selection=cp rsquare aq]jrsda best=20; 











run; 
quit; 





输出 结果 如 图 15.22 和 图 15.23 所 示 。 


























Model Number in 于 | 
Index Maodel Cp) R 方 ”RR 方 | 杭 型 中 的 挛 量 
1 1 | -0.3028 | 0.5351 | 0.5303 | Square 
| 0.0131 | 0.5432 0.5338 | Square Inventory 
3 | 2 | 1.4659 | 0.5362 | 0.5266 | Square Loyalty 
i 1.5528 | 0.5358 | 0.5262: | Square Tenure 
5 地 | 15555 | 0.5357 | 05262 Square Population 
6 2 1.5848 | 0.5356 | 0.5260 Mamber Sue 
i 了 | 3 1.8640 05440 00.529: Squara Invaentory Loyalty 
8 3 i 1.8708 | 0.5449 | 0.5297 | Saquara Invantory Populaton 
: 了 | 1.9234 | 0.5437 | 0.5294 | Square Invantory Tenure 
i 10 四 3 1.95345 | 日 下 0293 Membar Squars Irventory 
图 15.22 例 15.4 中 输出 前 20 个 模型 
: 以 下 对 象 的 莉 合 得 人 忻 : Revenue 
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Mallowves Clipl 


—— Mallows 


关于 Mallows， 建 议 选择 满足 条 件 Cp<p 条 件 且 参数 个 数 最 少 的 模型 作为 以 预测 为 目的 的 回归 模型 ,该 模型 中 应 包含 变量 Square; 至 于 Hocking， 则 建议 选择 满足 条 件 Cp<2p-pfull+ 1 且 参 数 最 少 的 模型 





娄 眶 个 及 
Hocking 六 以 吉本 个 覆 计 站 的 加 性 模压 





Hocking 


图 15.23 例 15.4 输 出 前 20 个 模型 Ch 的 散 点 图 


作为 以 解释 为 目的 的 回归 模型 ， 该 模型 中 应 包含 变量 9gquare 和 Inventory。 


在 选择 好 变量 之 后 ， 就 可 以 和 例 15.3 一 样 来 拟 合 模型 和 进行 参数 估计 了 。 





title 'Check "Best" Two Candidate Models'; 


proc reg data=ex.retail 


六 


Predict: model Revenue= Square ， 











run; 
quit; 


Explain: model Revenue= Square 


运行 程序 ， 结 果 如 图 15.24 所 示 。 





Inventory; 


程序 如 下 : 

















mm ee 






























































| en 
9 信和 113.973 D338 


15.73159 
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3139463 | 8.45997 | 3.71 | 0.0003 


-— 


1 | -0.49246 | 0.37359 | -132 | 0.1906 

























































图 15.24 例 15.4 输 出 REG 过 程 参数 估计 和 假设 检验 报表 


拟 合 诊断 面板 和 残 差 图 省 略 。 


2. 逐 步 选择 法 


在 变量 少 、 数 据 量 小 的 情况 下 ， 全 部 选择 方法 是 一 个 不 错 的 选择 ， 可 以 在 众多 模型 中 挑选 出 最 好 的 模型 。 但 是 在 变量 多 、 数 据 量 大 时 ， 计 算 量 也 会 变 得 很 大 ， 当 自 变 量 个 数 达到 20 个 时 ， 可 选 模型 就 将 
达到 100 万 个 ， 在 这 种 情况 下 ， 全 部 选择 方法 肯定 不 是 最 好 的 方法 。 这 里 介绍 另 一 种 选择 法 一 一 逐步 选择 方法 ， 其 基本 思想 是 ， 按 照 一 定 的 规则 ， 将 自 变量 逐个 添加 到 或 剔除 出 回归 模型 。 





REG 过 程 中 的 选项 SELECTION= 可 以 指定 运用 逐步 选择 法 拟 合 模型 ，SELECTION= 有 4 个 不 同 的 取 值 ， 前 3 个 取 值 分 别 代表 3 种 不 同 的 逐步 选择 方法 ， 最 后 一 个 取 值 表示 使 用 所 有 自 变量 拟 合 模 型 。 


FORWARD: 称 为 向 前 选择 法 。 第 一 步 ， 建 立 包 含 一 个 自 变量 的 模型 ， 这 个 自 变量 是 所 有 自 变 量 中 最 显著 重要 的 一 个 ;第 二 步 ， 从 其 余 的 自 变量 中 选择 一 个 自 变 量 进入 模型 ， 使 得 进入 的 自 变 量 是 剩 
余 自 变量 中 最 显著 重要 的 ， 重 新 拟 合 模型 ; 重复 第 二 步 ， 直 到 剩余 变量 中 没有 变量 显著 重要 。 选 项 SLENTRY= 是 FORWARD 方 法 的 引入 变量 的 准则 ， 默 认 情 况 下 ，SLENTRY=0.5， 当 表示 某 个 变量 显著 性 程 
度 的 p 值 小 于 SLENTRY 时 ， 则 该 变量 进入 模型 。 


BACKWARD: 称 为 向 后 消除 法 。 和 FORWARD 方 法 正好 相反 ， 初 始 情况 下 ， 它 会 建立 一 个 包含 所 有 自 变量 的 模型 ; 第 二 步 ， 保 留 模型 中 的 显著 变量 ， 吻 除 出 最 不 显著 的 自 变 量 ， 重 新 拟 合 模型 ; 重复 
第 二 步 ， 直 到 模型 中 所 有 变量 都 是 显著 为 止 。 选 项 SLSTAY= 是 BACKWARD 方 法 的 不 剔除 变量 的 准则 ， 黑 认 情 况 下 ，SLSTAY=0.1， 当 表示 某 个 变量 显著 性 程度 的 b 值 小 于 SLSTAY 时 ， 则 该 变量 继续 保留 在 模 
型 中 。 


. STEPWISE: 称 为 逐步 回归 法 ， 该 方法 综合 了 FORWARD 方 法 和 BACKWARD 方 法 。 第 一 步 和 FORWARD 方 法 一 样 ， 建 立 一 个 只 包含 一 个 自 变量 的 模型 ， 第 二 步 ， 在 模型 中 引进 新 的 自 变 量 的 同时 ， 吻 
除 现 有 自 变 量 中 的 不 显著 变量 ; 重复 第 二 步 ， 直 到 所 有 自 变量 都 被 利 选 完 ， 并 且 模型 中 的 自 变量 都 是 显著 的 为 止 。 默 认 情 况 下 ， 选 项 SLENTRY=0.15，SLSTAY=0.15， 当 某 个 变量 已 经 进入 模型 时 ， 若 代表 
某 个 变量 显著 性 程度 的 p 值 小 于 SLSTAY， 则 该 变量 继续 保留 在 模型 中 ; 当 某 个 变量 还 未 进入 模型 时 ， 如 果 将 该 变量 纳入 模型 中 ， 且 代表 其 显著 性 程度 的 p 值 小 于 SLENTRY， 则 将 该 变量 选 进 模型 中 。 


.NONE: 这 是 选项 SELECTION 的 默认 取 值 ， 表 示 用 所 有 的 自 变量 拟 合 一 个 方程 。 
图 15.25 是 FORWARD 方 法 、BACKWARD 方 法 和 STEPWISE 方 法 的 处 理 过 程 示意 图 。 


需要 注意 的 是 ， 逐 步 选 择 法 (FORWARD、BACKWARD 和 STEPWISE 方 法 ) 作为 一 种 自动 的 模型 选择 方法 也 不 是 完美 无 缺 的 ， 研 究 表明 ， 运 用 逐步 选择 法 进行 模型 选择 的 时 候 ， 自 变量 之 间 的 共 线 性 特 
征 会 影响 变量 的 引入 或 者 剔除 ， 极 有 可 能 导致 于 失 一 些 重要 的 变量 ， 因 此 ， 建 议 分 别 用 逐步 选择 法 中 的 3 种 方法 拟 合 多 个 备 选 模 型 ， 同 时 更 多 地 了 解 自 变量 和 因 变 量 的 关系 ， 根 据 实际 问题 的 意义 来 确定 自 变 
量 的 最 终 选择 和 模型 的 拟 合 。 


例 15.5: 分 别 使 用 FORWARD、BACKWARD 和 STEPWISE 方 法 为 响应 变量 Revenue 拟 合 回归 模型 。 


示例 代码 如 下 : 





title "Best Models Using Stepwise Selection'" 
proc reg data=ex.retail plots (only)=adjrsqg; 
forward: model Revenue=Member Square Inventory Loyalty Population Tenure/ 
selection=forward; 
backward: model Revenue=Member Square Inventory Loyalty Population Tenure/ 
selection=backward; 
stepwise: model Revenue=Member Square Inventory Loyalty Population Tenure/ 
selection=stepwise; 
































run; 
quit; 
输出 内 容 如 下 。 


第 一 步 输出 的 是 FORWARD 方 法 (向 前 选择 方法 ) 的 输出 结果 ， 如 图 15.26 所 示 。 


Forward Backward 
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图 15.25 FORWARD、BACKWARD 和 STEPWISE 方 法 示意 图 


Best Models Using Stepwtse Selection 
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一 一 -= 
































Square Square | 1.47825 0.13920 | 40083 | 112 78 | < 0001 


图 15.26 ” 例 15.5 输 出 向 前 选择 法 第 1 步 的 内 容 


REG 过 程 输出 向 前 选择 过 程 中 每 一 步 生 成 的 模型 的 线性 假设 检验 结果 和 参数 估计 ， 并 在 最 后 输出 一 个 汇总 报表 ， 如 图 15.27 所 示 。 





RR -: Clp)  F 值 | PryF 
1 Square 1 | 53651 | O5351 | -0.3028 112.78 | < O0001 





2 | Inventory 业 | 00082 O05432 | 0.0131 1.74 | OQ.1906 


图 15.27 例 15.5 输 出 向 前 选择 法 汇总 报表 


在 汇总 报表 中 ， 按 顺序 列 出 了 每 个 自 变 量 被 引入 模型 的 顺序 。 偏 R 方 中 记录 了 每 增加 一 个 自 变量 后 R 方 增加 的 量 。 在 这 个 例子 中 ， 向 前 选择 方法 选择 的 变量 和 全 部 选择 法 中 按照 Hocking 准 则 选择 的 变量 
一 样 。 


如 图 15.28 所 示 是 调整 后 的 R 方 图 ， 该 图 显示 了 每 一 步 拟 合 的 回归 方程 的 调整 R 方 值 。 星 号 表示 第 2 步 拟 合 的 模型 是 最 好 的 模型 。 


以 下 对 象 的 拟 合 条 件 : Revenue 
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图 15.28 例 15.5 输 出 向 前 选择 法 调整 R 方 图 
接 下 来 输出 的 是 BACKWARD 方 法 (向 后 消除 法 ) 的 输出 结果 ， 如 图 15.29 所 示 。 
此 外 ， 还 输出 了 向 后 消除 法 的 汇总 报表 ， 如 图 15.30 所 示 。 


在 向 后 消除 法 中 ， 变 量 Population、Tenure、Member、Loyalty 和 Inventory 依 次 被 从 回归 方程 中 删除 ， 最 后 回归 方程 中 只 含有 一 个 变量 Square 了 。 巧 合 的 是 ， 这 和 前 面 在 全 部 选择 方法 中 运用 
Mallows 准 则 选择 出 的 变量 一 致 。 


调整 后 的 R 方 图 如 图 15.31 所 示 ， 该 图 显示 在 第 4 步 ， 也 就 是 变量 Inventory 没 有 被 删除 时 ， 调 整 的 R 方 值 最 大 。 


最 后 输出 的 是 STEPWISE 方 法 (逐步 回归 方法 ) 的 结果 ， 图 15.32 显 示 的 是 汇总 结果 。 可 以 看 到 ， 逐 步 回 归 方 法 只 进行 了 1 步 就 停止 了 ， 也 就 是 说 ， 在 引入 变量 Square 后 ， 其 余 变 量 都 不 满足 0.15 的 显著 
水 平 。 


| | | z [| : 
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煌 有 这 量 已 输入 : R 方 = 0.5482 和 C(p) = 7.0000 


自由 麻 | 平方 和 均 方 | F 信 Pr>F 
: 5 | 41070 | 5844.96634 | 18.80 | <.000 
33854 | 364.01617 
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站 量 二 误差 sss Fa pr>F 


Intercept | 7739366 | 144.99326 103.71362 | 0.28 | 0.5948 | 
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Square 1.66382 | 0.24560 15706 | 45.89 | <.0001 | 
inveniory | -0.48320 | 0.38077 58621490 | 1.61 | 02076 | 
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图 15.29 ” 例 15.5 输 出 向 后 消除 法 第 0 步 的 内 容 
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图 15.30” 例 15.5 输 出 向 后 消除 法 汇总 报表 


以 下 对 象 的 拟 合 条 件 : Revenue 
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图 15.31 例 15.5 输 出 向 后 消除 法 调整 R 方 图 


0.5470 | 3.2477 


这 量 数 ” R 方 ，R 方 | clp) | F 值 
DSdr7 | S0088 








-是 贞 远 择 的 记 总 

输入 的 ”删除 的 引入 乙 。 模型 
本 | 变量 | 变量 变量 数 | R 方 R 方 | Cl) F 伯 | Pr>F 
1 | Square 1 10.5351 | 0.5351 | -0.3028 | 112.78 | <,0001 


图 15.32 ” 例 15.5 输 出 逐步 回归 法 汇总 报表 


15.2.5 ”模型 预测 
根据 上 面 模型 选择 方法 ， 我 们 已 经 得 到 了 回归 方程 :天 六 :全 “No 接 下 来 ， 要 运用 回归 方程 对 因 变 量 进行 预测 。 有 以 下 3 种 方法 可 以 实现 这 一 目的 : 
* 手动 编写 回归 方程 ， 运 用 DATA 步 ， 计 算出 预测 值 。 


将 需要 计算 预测 值 的 数据 〈 因 变量 的 值 为 缺失 值 ) 和 建 模 的 数据 纵向 合并 ， 调 用 REG 过 程 建 立 模型 ，REG 过 程 在 拟 合 模型 的 时 候 ， 将 会 忽略 因 变 量 为 缺失 值 的 观测 。 在 MODEL 语 多 中 使 用 选项 P， 可 
使 系统 输出 所 有 观测 的 因 变 量 实际 值 和 所 有 观测 (包含 因 变量 为 缺失 值 的 观测 ) 的 预测 值 。 


. 运用 SCORE 过 程 ， 计 算出 预测 值 。 


SCORE 过 程 的 基本 语法 如 下 : 





PROC SCORE DRATA= 数 据 集 <SCORE= 数 据 集 ><OUT= 数 据 集 >< 其 他 选项 >; 
VAR 变量 1 < 变量 2 ... >; 
RUN 

















其 中 : 
. 选项 DATA= 用 来 指定 需要 计算 预测 值 的 数据 集 ; 选项 SCORE= 用 来 指定 包含 模型 参数 信息 的 数据 集 ，SCORE 过 程 会 将 该 模型 信息 应 用 到 前 一 数据 集中 ， 进 而 计算 出 预测 值 ， 并 通过 选项 OUT= 输 出 包 
含 预测 值 的 数据 集 。 
. VAR 语 名 用 来 指定 参与 预测 值 计 算 的 变量 。 其 实 SCORE 过 程 是 将 VAR 语 名 中 的 变量 值 和 模型 参数 数据 集中 对 应 的 参数 相 乘 ， 然 后 再 将 乘 项 相 加 ， 从 而 得 到 预测 值 的 。 很 多 统计 过 程 都 可 以 输出 包含 模 
型 参数 信息 的 数据 集 ， 并 在 SCORE 过 程 中 应 用 。 


例 15.6: 计算 当 Square 等 于 30、40、50、60、70 时 ，Revenue 的 预测 值 。 


示例 代码 如 下 : 


data work.Need Predictions; 
input Square Q@@; 
datalines; 

30 40 50 60 70 

















run; 

proc reg data=ex.retail noprint outest=work.Betas; 
PreRev: model Revenue=Square; 

run; 

quit; 

title "OUTEST= Data Set from PROC REG"; 

proc print data=work.Betas; 

run; 





在 上 述 代 码 中 ，REG 过 程 调用 了 选项 OUTEST= 输 出 模型 参数 。 在 MODEL 语 句 的 前 面 使 用 了 一 个 字符 串 PreRev 加 “: ”，PreRev 是 该 模型 的 标签 ， 也 是 预测 值 的 变量 名 称 ， 如 图 15.33 所 示 。 默 认 情 况 
下 ， 系 统 将 根据 MODEL 语 句 出 现 的 顺序 使 用 MODEL1、MODEL2 等 作为 模型 的 标签 。 


OUTEST= Data Set from PROC REG 


Obs MODEL_ -TYPE -DEFVAR_ RMSE_ intercept Sqare Revenue 


1 | PreReyv PARNMS Revenue 198853 | 31AM2 14/6805 -] 





图 15.33” 例 15.6 中 PRINT 过 程 输出 内 容 


下 面 的 程序 将 调用 SCORE 过 程 为 新 的 观测 计算 预测 值 。 








proc Score data=work.Need Predictions Score=work.Betas 
out=Scored type=parms; 
Var Square; 
run; 
title "Score New Observations"; 
proc print data=work.Scored; 
run’y 





在 SCORE 过 程 中 ， 选 项 TYPE 的 取 值 等 于 work.Betas 中 变量 TYPE 的 取 值 ， 它 代表 选项 SCORE 指 定 的 数据 集 的 类 型 。 输 出 内 容 如 图 15.34 所 示 。 





1 30 A5819 
4 
5s0 
bU 
:0 





入 


图 15.34 例 15.6 中 生成 的 数据 集 wotk.scote 
预测 值 保存 在 变量 PreRev 中 。 


当 模 型 中 包含 多 个 自 变 量 时 ， 同 样 可 以 运用 SCORE 过 程 进行 预测 值 的 计算 ， 对 此 ， 只 需 在 SCORE 过 程 中 的 VAR 语 句 中 对 应 指定 多 个 变量 即 可 。 


15.3 ” 目 变 量 旧 的 共 续 性 诊断 


在 进行 多 元 线性 回归 的 时 候 ， 自 变量 间 的 共 线 性 问题 容易 导致 模型 不 稳定 。 但 是 ， 线 性 回归 的 假设 中 并 没有 要 求 自 变量 间 不 能 存在 共 线 性 ， 我 们 进行 共 线性 的 检验 是 出 于 模型 稳定 性 的 考虑 。 所 谓 “ 不 
稳定 ” 指 的 是 当 更 换 样 本 或 者 样本 发 生 很 小 的 变动 时 ， 模 型 就 会 发 生 很 大 的 改动 ， 甚 至 模型 根本 就 不 再 适用 了 。 这 一 节 中 ， 将 介绍 如 何 判 断 自 变量 是 否 存 在 共 线性 ， 哪 些 自 变量 存在 共 线性 ， 以 及 在 建 模 过 
程 中 如 何 使 共 线性 的 影响 达到 最 小 。 


在 REG 过 程 中 提供 了 选项 VIF、COLLIN 和 COLLINOINT 让 用 户 检查 自 变量 的 共 线 性 。 本 书 中 着 重 讲解 选项 VIF， 有 兴趣 的 读者 可 以 参考 SAS 帮 助 文 档 ， 查 看 选项 COLLIN 和 COLLINOINT 的 用 法 及 含义 。 


VIF 是 Variance Inflation Factor 的 缩写 ，VIF 是 由 共 线 性 造成 的 方差 增加 的 度量 ， 中 文 也 称 为 方差 膨胀 。 在 REG 过 程 中 ， 系 统 会 对 模型 中 的 每 一 个 变量 计算 VIF，"… “这 里 的 R* 浊 线性 回归 方程 
Xi=F (X141，X2，.…，Xi-1，Xir1，.…，Xk) 的 R 方 。 当 VIFi> 10 时 ， 表 示 Xi 可 能 和 某 些 变量 存在 高 度 共 线性 ， 可 能 造成 模型 不 稳定 。 


例 15.7: 调用 REG 过 程 ， 使 用 VIF 选 项 判断 哪些 自 变量 存在 高 度 共 线 性 。 


示例 代码 如 下 : 





title "Collinearity - Full Model"; 
proc reg data=ex.retail; 
fullmodel: model Revenue=Member Square Inventory Loyalty Population Tenure/ vif; 














Uns 
quit; 





输出 内 容 如 图 15.35 所 示 。 
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图 15.35” 例 15.7 中 输出 内 容 


0 81 04223 : 


O24d4560 | Bir 


0.31005 | -0.87 


要 量 

Inmmercept 
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Square 

rl | -048320 | 038077 | -127 
Loyaiy | 

Population -0.31 
Tenure 


-0 旭 








< O001 
0.2076 | 
| 0- 扫 56 | 
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0.7366 | 27.78541 








其 中 自 变量 Member、Loyalty 和 Tenure 的 VIF 均 大 于 10， 这 说 明 这 些 变量 间 存 在 高 度 共 线 性 。 我 们 先 尝试 去 除 VIF 值 最 大 的 自 变 量 Member， 重 新 拟 合 模型 ， 计 算 VIF。 代 码 如 下 : 





pro 


Cc reg data=ex.retail; 
fullmodel: model Revenue=/*Member*/ Square Inventory Loyalty Population Tenure/ vif; 


run; 
quit; 
模型 输出 如 图 15.36 所 示 。 


在 剔除 掉 变 量 Member 之 后 ， 变 量 Loyalty 和 Tenure 的 VIF 也 降低 ， 但 是 仍然 大 于 10， 并 且 两 个 变量 都 不 显著 ， 这 时 可 以 继续 尝试 剔除 变量 Tenure， 因 为 Tenure 的 p 值 比 Loyalty 的 p 值 大 。 重 新 拟 合 模 


型 ， 计 算 VIF。 代 码 如 下 : 








proc reg data=ex.retail; 
fullmodel: model Revenue=/*Member*/ Square Inventory Loyalty Population /*Tenure*// vif; 





runy 
quit; 


模型 结果 输出 如 图 15.37 所 示 。 
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图 15.36 ” 例 15.7 中 重新 拟 合 模型 输出 内 容 
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图 15.37 例 15.7 中 第 三 次 拟 合 模型 输出 内 容 
此 时 所 有 变量 的 VIF 都 小 于 10， 说 明 模 型 中 的 自 变量 间 不 存在 高 度 共 线性 。 


在 逐步 选择 法 中 ， 由 于 存在 共 线性 ， 可 能 导致 有 些 显著 的 变量 变 得 不 显著 ， 重 要 的 变量 不 能 够 被 选 进 模型 中 。 因 此 ， 建 议 在 运用 逐步 选择 法 建 模 前 ， 先 检查 变量 间 的 共 线 性 问题 ， 剔 除 一些 导 致 高 共 线 
性 的 自 变量 。 具 体 方法 可 以 参考 第 12 章 中 的 主 成 分 分 析 法 。 


15.4 ”本 童 小 结 


本 章 介 绍 了 统计 中 广泛 应 用 的 回归 分 析 模 型 的 基本 原理 、 假 设 条 件 、 模 型 拟 合 和 建 模 步骤 ， 以 及 应 用 CORR 过 程 和 和 REG 过程 在 SAS 中 的 实现 。 这 里 将 对 上 面 介 绍 的 内 容 稍 加 总 结 。 
回归 分 析 基 本 上 可 以 分 为 下 面 6 个 步骤 进行 : 


1) 探索 分 析 ， 运 用 过 程 步 (如 ，GPLOT 过 程 、CORR 过 程 ) 计算 变量 的 描述 性 统计 量 ， 作 散 点 图 ， 分 析 因 变量 和 自 变 量 之 间 的 相关 性 。 


2) 调用 回归 分 析 的 相关 过 程 (如 REG 过 程 ) ， 在 MODEL 语 句 中 使 用 选项 SELECTION 进 行 变量 和 模型 的 选择 ， 并 进行 模型 和 参数 估计 。 
3) 通过 查看 过 程 步 的 输出 结果 ， 进 行 回归 分 析 假 设 条 件 的 验证 ， 主 要 是 查看 残 差 图 和 检验 残 差 的 方差 是 否 齐 性 。 


4) 进行 变量 间 的 共 线性 检查 和 样本 中 强 影 响 点 的 检查 。 通 过 查看 REG 过 程 中 输出 的 各 变量 的 VIF、COLLIN 和 COLLINOINT 可 进行 共 线 性 检查 ; 通过 查看 RSTUDENT 残 差 、Cook's D 统 计量 及 DFFITS 统 
计量 可 进行 强 影响 点 的 检查 。 


5) 如 果 第 3 步 和 第 4 步 的 检验 结果 表明 现 有 模型 存在 问题 ， 则 需要 重新 进行 模型 选择 和 拟 合 ， 并 返回 进行 第 3 步 和 第 4 步 的 检验 。 


6) 模型 验证 。 通 党 在 建 模 前， 如 果 样 本 数量 允许 ， 建 议 预 留 一 部 分 数据 不 参与 建 模 ， 只 用 其 中 一 部 分 数据 进行 建 模 。 在 拟 合 完 模型 后 ， 将 模型 应 用 到 预 留 的 数据 中 进行 模型 的 验证 。 其 中 ， 用 于 建 模 的 
数据 称 为 训练 数据 (Training Data) ， 用 于 验证 的 数据 称 为 验证 数据 (Validation Data) 。 


回归 分 析 的 流程 如 图 15.38 所 示 。 


( 1 ) 探索 分 析 和 


( 4 ) 共 线 性 和 ( 3 ) 回归 分 析 
强 影响 点 检查 假设 条 件 验 证 


(6 ) 
异型 验证 





图 15.38 ”回归 分 析 流 程 


第 16 章 LOGISTIC 回 归 分 析 


线性 回归 模型 是 一 种 流行 的 定量 分 析 因 变量 与 自 变量 之 间 相 关 关 系 的 统计 分 析 方 法 。 然 而 在 许多 情况 下 ， 线 性 回归 都 会 受到 限制 。 如 ， 当 因 变 量 是 分 类 变量 而 不 是 连续 变量 时 ， 线 性 回归 就 不 适用 。 在 
许多 社会 科学 和 商业 分 析 中 ， 需 要 研究 的 变量 都 是 分 类 变量 而 不 是 连续 变量 。 例 如 ， 政 治学 中 经 常 研究 的 是 否 选举 某 候选 人 ; 又 如 ， 商 业 分 析 中 所 涉及 的 是 否 购买 某 种 商品 、 是 否 回应 一 次 促销 活动 ， 等 
等 。 这 种 选择 度量 通常 分 为 两 类 ， 即 “是 ”与 “ 否 ”。 在 调查 研究 中 ， 人 态度 与 偏好 等 情感 分 析 指 标 也 是 按 几 个 类 型 进行 测量 的 ， 如 “强烈 反对 ”、“ 反 对 ”、“ 中 立 。、 “支持 ”和 “强烈 支持 ”。 甚 至 有 
些 时 候 ， 人 们 更 愿意 将 连续 度量 转换 为 分 类 度量 。 例 如 ， 在 分 析 学 生 升 学 考试 成 绩 的 影响 因素 时 ， 虽 然 考试 分 数 是 连续 的 ， 但 往往 只 需要 被 划分 为 两 类 即 可 : 录取 线 以 上 和 录取 线 以 下 。 只 要 选 定 一 个 分 界 
点 ， 连 续 变 量 就 可 以 被 转换 为 二 分 变量 。 





在 定量 分 析 分 类 变量 时 ， 常 用 的 一 种 统计 方法 是 对 数 线性 模型 (Log-linear model) 。 在 本 章 中 ， 将 介绍 对 数 线性 模型 的 一 种 特殊 形式 一 一 LOGISTIC 回 归 模 型 。 


16.1 基本 原理 
为 了 便于 读者 理解 ， 将 按 与 线性 回归 模型 类 比 的 方式 来 介绍 LOGISTIC 回 归 模 型 。 


16.1.1 ”线性 概率 模型 


我 们 知道 ， 线 性 回归 模型 没有 对 所 使 用 的 自 变 量 的 度量 加 以 限制 ， 只 是 要 求 误 差 项 独立 服从 于 正 态 分 布 。 其 自 变量 可 以 是 连续 的 ， 可 以 只 取 正 数 和 0 值 ， 也 可 以 都 是 整数 (如 年 龄 ) ， 甚 至 可 以 是 二 分 类 
型 的 (如 男性 取 1 值 ， 女 性 取 0 值 ) 。 然 而 ， 因 变量 却 必 须 是 连续 的 。 要 是 在 线性 回归 模型 中 的 因 变 量 只 取 0 和 1 两 个 值 会 怎么 样 ? 


如 果 用 线性 回归 模型 来 解释 某 客户 是 否 会 拖欠 银行 贷款 ， 所 构想 的 线性 回归 方程 如 下 : 


yi 一 % 十 BxiTsi 


其 中 ，x 悍 第 i 个 家 庭 的 年 收入 ; y 利 一 个 二 分 变量 ，yi= 1 表示 第 i 个 客户 会 拖欠 银行 货款， 否则，yi= 0 表示 不 会 拖欠 ; 残 差 项 si 服从 于 均值 为 0， 方 差 为 o“ 的 正 态 分 布 ， 并 且 si 与 sj (i 坟 ) 相互 独立 。 


因为 y 的 取 值 只 是 0 或 者 1， 在 给 定 xi 的 条 件 下 ，yi 的 期 望 值 如 下 : 





E (ylx) =E (x+Bxi+e) =x+Bx=pb (y=1|x) “1+b (y=0|x) “0=p (y=1|%) 





其 中 ，p (yi=1|xi) 为 事件 发 生 的 概率 ， 对 应 的 ， 事 件 不 发 生 的 概率 应 该 为 p (yi=0|xi) =1-a-Bxi。 因 此 ， 因 变量 为 二 分 变量 的 线性 回归 模型 也 被 称 为 线性 概率 模型 。 
线性 回归 模型 的 残 差 项 为 ej:=yi-a-Bxi。 令 f (si) 为 残 差 项 的 密度 函数 ， 定 义 当 yi=0 时 ，f (si) =fi， 假 设 残 差 的 期 望 值 为 0， 可 得 fi= 1-c-Bxi， 按 照 定义 ，g 的 方差 等 于 : 
Var (si) =fiX (opBx) 2+ (16) x (la-px) 2 

代入 可 得 : 
Var (si) =p (y=1|x) Xp (yi=0|%) 


由 此 可 以 看 出 ， 当 因 变 量 为 二 分 变量 时 ， 运 用 线性 回归 模型 分 析 因 变量 时 ， 由 于 残 差 的 方差 是 依赖 于 因 变 量 的 值 而 变动 的 ， 对 不 同 的 观测 会 有 不 同 的 方差 ， 因 此 不 再 符合 独立 同 分 布 的 假设 条 件 。 这 种 
情况 在 统计 中 称 为 异 方差 性 (heteroscedasticity) 。 


由 于 因 变 量 的 特殊 性 ， 用 线性 回归 模型 解释 因 变 量 存 在 以 下 问题 : 
线性 回归 模型 残 差 独 立 和 残 差 方 差 齐 性 的 假设 条 件 不 满足 ， 使 得 参数 估计 的 估计 方差 是 有 偏 的 ， 因 此 任何 假设 检验 都 是 无 效 的 。 
“由 于 模型 预测 的 是 事件 发 生 的 概率 ， 模 型 中 的 参数 wx 和 B 是 常数 ， 因 此 由 模型 估计 的 概率 值 有 可 能 会 超出 吕 ，1] 区 间 。 


因此 ， 当 因 变 量 为 二 分 变量 时 ， 不 再 适合 用 线性 回归 模型 来 拟 合 因 变 量 与 自 变量 之 间 的 关系 。 那 么 ， 该 用 什么 样 的 模型 呢 ， 这 就 是 接 下 来 要 讨论 的 内 容 。 


16.1.2 LOGISTIC 回归 模型 


根据 前 面 的 分 析 ， 建 议 对 于 二 分 因 变 量 的 分 析 采 用 非 线性 回归 模型 。 假 设 事 件 发 生 的 条 件 概 率 p (yi=1|xi) 与 xi 之 间 的 非 线性 关系 为 单调 函数 是 合理 的 ， 即 随 着 x 的 增加 (减少 ) p (yi=1|xi) 也 单调 增 
加 ， 考 虑 到 事件 发 生 的 条 件 概率 的 值 域 为 (0，1) ， 因 此 ， 这 种 曲线 类 似 于 一 个 随机 变量 的 累计 分 布 曲线 。 最 党 用 的 分 布 函数 是 LOGISTIC 分 布 。 这 里 先 简要 地 描述 一 下 把 LOGISTIC 函 数 用 于 二 分 因 变 量 分 
析 的 理论 依据 。 


假设 有 一 个 理论 上 存在 的 连续 随机 变量 yi 代表 事件 发 生 的 可 能 性 ， 其 值 域 为 -co 到 co。 当 该 变量 的 值 跨越 一 个 临界 点 < 时 ， 便 导致 事件 发 生 了 ， 即 yj=1; 否则 y;=0， 这 里 y 是 实际 观测 到 的 因 变量 取 值 。 假 
设 随机 变量 y; 和 自 变量 xi 之 间 存 在 线性 关系 ， 即 ， 

yi 一 x+Bxi+esi 
于 是 ， 事 件 发 生 的 概率 为 p (yi=1|xi) =p[ (x+Bxi+si) >d=plsi> (-a-Bxi+c) ]， 通 常 假设 s 服 从 LOGISTIC 分 布 ， 根 据 LOGISTIC 分 布 的 对 称 性 ， 则 有 : 

pf[ei> (-x-Bxi+c) ]=ple< («+Bxtc) =F (x+Bxi+c) 

其 中 ，F 为 = 的 累积 分 布 国 数 ， 这 里 就 是 LOGISTIC 分 布 的 标 积 分 布 国 数 。 为 了 方便 表示 ， 可 以 假设 c=0， 因 此 有 : 

p (y=1|x) =F («+Bx) 
如 果 假 设 si 服从 标准 LOGISTIC 分 布 ， 则 累计 分 布 函数 可 以 有 一 个 较为 简单 的 公式 : 


| 
NN 下 有) 二 庆 届 号 人 本 二 
e 由 


这 个 函数 就 是 LOGISTIC 函 数 ， 它 具有 3s 型 分 布 ， 如 图 16.1 所 示 。 
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图 16.1 _ LOGISTIC 函数 曲线 图 
正如 图 16.1 所 示 ， 无 论 x 权 任何 值 ， 事 件 发 生 的 条 件 概率 P (yi=1|xi) 的 取 值 范围 均 在 0 至 1 之 间 。 


若 将 事件 发 生 的 条 件 概率 P_ (yi=1|xi) 记 为 pj， 则 pi 为 第 i 个 观测 发 生 事件 的 条 件 概率 ， 于 是 就 得 到 以 下 LOGISTIC 回 归 模 型 : 


| 
Pi | 十 ethei) 
它 是 一 个 由 自 变量 x 构 成 的 非 线 性 函数 ， 但 是 这 个 非 线性 函数 可 以 转变 成 线性 函数 。 
pi 为 第 i 个 观测 发 生 事 件 的 概率 ， 则 事件 不 发 生 的 条 件 概率 为 
] 
| -p.=1- re 
| 区 
那么 ， 事 件 发 生 概 率 与 不 发 生 概率 之 比 为 : 
Pi 到 (a+Bxi) 
| -Dp. 


这 一 转换 称 为 logit 形 式 ， 也 称 为 y 的 logit， 即 logit (y) 。logit (y) 对 于 其 参数 而 言 是 线性 的 ， 并 且 依 赖 于 自 变量 x 的 取 值 。 模 型 中 的 参数 a 和 |B 可 以 按照 一 般 回 归 系 数 那样 进行 解释 。 一 个 变量 的 作用 
如 果 是 增加 对 数 发 生 比 的 话 ， 也 就 是 增加 事件 的 发 生 比 ， 反 之 亦 然 。 


当 有 k 个 自 变量 时 ，LOGISTIC 回 归 模 型 可 以 扩展 如 下 : 


相应 的 ,， "3 …>*… 其 中 pi=p (yi=1|x1i，x2i，…，xki) 束 示 第 i 个 观测 。 


16.1.3 ”LOGISTIC 回归 模型 的 估计 


在 线性 回归 中 ， 估 计 未 知 总 体 参数 时 主要 采用 最 小 二 乘法 ， 这 一 方法 的 原理 是 根据 线性 回归 模型 选择 的 参数 估计 值 ， 使 得 因 变量 的 观测 值 与 预测 值 之 间 的 残 差 平方 和 为 最 小 。 在 线性 回归 分 析 中 ， 极 大 
似 然 估计 法 可 以 得 到 与 最 小 二 乘法 相同 的 结果 。 与 最 小 二 乘法 相 比 ， 极 大 似 然 估计 法 还 可 以 用 于 非 线性 模型 的 参数 估计 。 由 于 LOGISTIC 回 归 是 非 线性 模型 ， 因 此 ， 极 大 似 然 估计 法 是 最 常用 的 模型 估计 方 
法 , 

假设 有 n 个 观测 作为 样本 ， 观 测 什 为 y1，y2，.…，yn， 对 于 1<i<n，y 的 取信 为 0 或 者 1， 在 给 定 x 的 条 件 下 ，y 取 信 为 1 的 概率 记 为 pj; yi 到 值 为 0 的 概率 记 为 1-pi， 于 是 ， 得 到 第 个 观测 值 的 概率 为 
0) zw0 - ”由 于 各 观测 是 相互 独立 的 ， 因 此 ， 可 以 得 到 它们 的 联合 概率 分 布 : 


1L(9) = [ [pr -p) 


4 三] 


这 也 就 是 n 个 观测 的 似 然 浮 数 。 前 面 讨 论 过 事件 发 生 的 条 件 概率 为 -= 代入 似 然 函数 中 ， 极 大 似 然 估计 的 原理 就 是 求 使 得 似 然 函 数 取得 最 大 值 的 xc 和 的 估计 值 。 通 常 ， 在 处 理 似 然 函数 时 ， 会 两 边 取 
对 数 ， 则 得 : 


In(L(0)) = 9 [y; x (a +Bx;) - ln(1 + e‘"*™ )] 


|| 


该 式 称 为 对 数 似 然 函数 。 


分 别 对 参数 a 和 B 求 偏 导数 ， 即 可 得 似 然 方程 。 如 果 模 型 中 有 k 个 自 变量 ， 那 么 就 需要 对 Bm 求 导 ，1<m<k， 就 可 以 得 到 k+1 个 方程 ， 用 来 估计 a 和 B1、B2、.….、Bk 的 值 。 由 LOGISTIC 回 归 方 程 得 到 的 似 
然 方程 是 非 线 性 的 ， 因 此 ， 这 里 极 大 似 然 估计 都 是 通过 迭代 计算 完成 的 。 


在 样本 较 大 时 ，LOGISITC 回 归 的 极 大 似 然 估计 具有 相合 性 (consistent) 、 渐 近 有 效 性 (asymptotically efficient) 和 渐 近 正 态 性 (asymptotically normal) 。 相 合 性 指 当 样本 规模 增 大 时 ， 模 型 的 


进行 参数 的 显著 性 检验 ， 并 且 可 计算 参数 的 置信 区 间 。 
这 些 性 质 只 有 在 样本 较 大 时 才能 保持 。 那 么 ， 一 个 实际 的 问题 是 ， 样 本 在 多 大 时 可 以 应 用 极 大 似 然 估计 呢 ? 


这 个 问题 至 今 没有 明确 的 答案 。 根 据 较 普遍 看 法 ， 中 等 规模 的 样本 (n=100) 可 以 接受 ,在 样本 规模 小 于 100 时 使 用 极 大 似 然 估 计 ， 对 概率 估计 值 和 置信 区 间 的 计算 存在 较 大 风险 ; 若 样本 量 大 于 500， 
使 用 极 大 似 然 估计 法 就 比较 充分 了 。 此 外 ， 样 本 规模 的 确定 也 依赖 于 模型 和 数据 的 特点 。 如 果 模 型 中 有 很 多 参数 需要 估计 ， 就 需要 较 大 的 样本 量 。 如 果 数 据 条 件 不 太 好 ， 比 如 自 变 量 间 具 有 高 度 共 线性 等 问 
题 存在 ， 也 需要 较 大 的 样本 量 。 


16.1.4” LOGISTIC 回归 模型 的 假设 条 件 

要 使 得 LOGISTIC 回 归 模 型 的 估计 具有 以 上 性 质 ， 除 了 要 保证 样本 的 规模 以 外 ， 还 要 必须 满足 一 些 假设 条 件 。 这 些 假设 条 件 中 有 一 些 与 线性 回归 模型 十 分 类 似 ， 包 括 : 
数据 必须 来 自 随机 样本 。 
: 因 变 量 被 假设 为 k 个 自 变 量 的 函数 。 
:LOGISTIC 回归 对 共 线 性 敏感 ， 当 自 变 量 之 间 存 在 高 度 自 相关 时 会 导致 估计 的 标准 误 膨 胀 。 

LOGISTIC 回 归 模 型 也 有 一 些 不 同 于 线性 回归 模型 的 假设 ， 比 如 : 
-LOGISTIC 回归 的 因 变 量 是 一 个 二 分 变量 ， 这 个 变量 只 能 取 值 0 或 者 1， 我 们 研究 的 是 事件 发 生 的 条 件 概率 。 
:LOGISTIC 回归 中 因 变 量 与 各 自 变 量 之 间 的 关系 是 非 线 性 的 。 
:线性 回归 模型 中 要 求 残 差 是 独立 同 分 布 的 ， 类 似 的 假设 在 LOGISTIC 回 归 中 不 需要 。 


LOGISTIC 回归 中 没有 关于 自 变 量 分 布 的 假设 条 件 ， 自 变量 可 以 是 连续 变量 、 分 类 变量 等 。 


16.2， 运 用 LOGISTIC 过 程 拟 合 模型 


16.2.1 基本 语法 


LOGISTIC 过 程 可 以 用 来 拟 合 LOGISTIC 模 型 ， 基 本 语法 如 下 : 








PROC LOGISTIC DATA= 输 入 数据 集 选项 ; 
MODEL 因 变 量 =< 自 变量 1 自 变 量 2 ... ></ 选 项 >; 
SCORE < 选项 >; 
OUTPUT <OUT= 输 出 数据 集 >< 关 键 字 1= 变 量 名 1 关键 字 2= 变 量 名 2 . ></ 其 他 选项 >; 
RUN; 












































其 中 : 


: PROC LOGISTIC 语 句 中 指定 输入 数据 集 ， 常 见 的 选项 有 NOPRINT、PLOTS 和 NAMELEN=n。 选 项 NOPRINT 和 PLOTS 的 用 法 与 其 他 过 程 中 的 类 似 。 这 里 稍微 介绍 一 下 选项 
NAMELEN=，NAMELEN= 指 定 输入 数据 集 和 输出 数据 集中 变量 名 的 最 大 长 度 ,，b 的 取 值 在 20 和 200 之 间 。 在 建 模 之 前 ， 有 时 需 对 变量 进行 各 种 各 样 的 清理 、 转 换 和 重新 编码 ， 为 了 追踪 这 种 处 理 ， 很 多 时 候 
会 在 变量 名 上 增加 相应 的 描述 ， 这 样 就 会 导致 变量 名 的 长 度 增 大 。 如 果 没 有 使 用 选项 NAMELEN=， 变 量 名 称 可 能 会 被 截断 。 


- MODEL 语 多 用 来 指定 因 变 量 和 自 变 量 。 因 变量 可 以 是 二 分 变量 ， 也 可 以 是 定 类 变量 (Nominal Vatiable) 或 者 是 定 序 变 量 (Ordinal Vatiable) ; 自 变 量 可 以 是 连续 变量 或 者 分 类 变量 。 在 LOGISTIC 过 程 
中 ， 必 须 有 且 仅 有 一 个 MODEL 语 句 。 


“SCORE 语句 用 来 输出 数据 ， 输 出 数据 中 将 包含 输入 数据 集中 的 所 有 数据 ， 并 且 会 输出 预测 事件 发 生 的 概率 值 。 当 然 ， 也 可 以 选择 输出 预测 的 概率 值 的 置信 区 间 。 可 以 使 用 多 个 SCORE 语 和 句 。 
* OUTPUT 语 和 句 中 用 选项 上 OUT= 指 定 输 出 数据 集 ， 输 出 数据 集 包 含 所 有 变量 和 指定 统计 量 。 


建立 统计 模型 通常 所 涉及 的 是 个 体 数 据 ， 即 每 一 条 数据 代表 一 个 观测 ， 通 过 LOGISTIC 过 程 的 语法 介绍 可 知 ，MODEL 语 句 的 语法 也 是 针对 个 体 数据 的 情形 。 但 是 ，LOGOSTIC 过 程 使 用 不 同 的 MODEL 
语句 也 可 以 对 分 组 数据 建 六 LOGISTIC 回 归 模 型 。 分 组 数据 指 的 是 ， 每 一 条 数据 代表 多 条 观测 ， 进 行 LOGISTIC 回 归 分 析 的 语法 如 下 : 








PROC LOGISTIC DATA= 输 入 数据 集 选项 ; 

MODEL 因 变 量 / 试验 次 数 = < 自 变 量 1 自 变量 2 . ></ 选 项 >; 

SCORE < 选项 >; 

OUTPUT <OUT= 输 出 数据 集 >< 关 键 字 1= 变 量 名 1 关键 字 2= 变 量 名 2 . ></ 其 他 选项 >; 
RUN; 
























































其 中 ， 在 MODEL 语 句 “/” 后 的 试验 次 数 指 的 是 保存 事件 发 生 与 未 发 生 次 数 的 变量 。 需 要 注意 的 是 ， 如 果 是 对 分 组 数据 进行 LOGISTIC 回 归 ，LOGISTIC 过 程 将 规定 因 变 量 只 能 是 二 分 型 变量 。 
为 了 示范 如 何 运 用 LOGISTIC 过 程 拟 合 模 型 ， 下 面 采 用 一 套 模拟 数据 来 分 析 银 行 的 个 人 消费 贷款 申请 人 拖欠 贷款 的 可 能 性 。 

例 16.1: 数据 集 ex.loan 是 包含 个 体 数据 的 数据 集 ， 包 含 了 如 下 变量 。 

. ID: 贷款 编号 ， 在 数据 集中 是 唯一 的 。 

.BAD: 是 否 为 不 良 货款， 如果 是 不 良 贷 款 ， 则 BAD=1， 如 果 不 是 不 良 货 款 ， 则 BAD=0。 

. DELINQ: 信用 记录 中 拖欠 交易 次 数 ， 取 值 为 0、1、2、3…。 

" EDUCATION: 贷款 申请 人 学 历 ， 取 值 为 college、graduate、high school。 

. DEBTINC: 贷款 申请 人 资产 负债 率 。 

. YROPEN: 贷款 申请 人 工作 年 限 。 

REASON: 申请 贷款 用 途 ， 如 果 是 用 于 商业 投资 ， 则 REASON 的 取 值 为 business， 如 果 是 住房 货款， 则 REASON 的 取 值 为 hnouse， 如 果 是 汽车 贷款 ， 则 REASON 的 取 值 为 cat。 
. PLOAN: 以 前 是 否 有 过 贷款 ， 如 果 有 过 贷款 记录 ， 则 PLOAN=1， 如 果 没 有 过 贷款 记录 ， 则 PLOAN=0。 

现在 要 运用 LOGISTIC 过 程 来 拟 合 申请 人 拖欠 贷款 的 数据 ， 模 型 的 因 变 量 是 BAD， 要 考虑 自 变量 DELINQ 和 DEBTINC 对 因 变 量 BAD 的 影响 ， 并 对 其 估计 过 程 和 结果 加 以 讨论 。 


示例 代码 如 下 : 





proc logistic aata=ex.1Loan 
plots (only)= (effect (clband showobs)); 












































model bad (event="1")= DELINQ DEBTINC; 
title 'Bad Loan Model'; 

run; 

其 中 : 


: 选项 PLOTS 指 定 系 统 输出 图 形 。 


" 选项 EFFECT 指定 输出 关于 自 变量 的 预测 概率 效应 图 形 ， 括 号 中 的 子 选 项 CLBAND 和 SHOWOBS 指 定 在 预测 概率 效应 图 形 中 显示 预测 概率 的 置信 域 和 观测 。 黑 认 情 况 下 ， 系 统 只 输出 关于 一 个 自 变 量 的 
预测 概率 效应 图 形 ， 当 模型 中 有 多 个 自 变量 时 ， 系 统 将 在 使 得 其 余 连 续 自 变 量 的 取 值 都 为 平均 值 、 分 类 变量 的 取 值 为 某 一 推荐 值 的 情况 下 ， 输 出 第 一 个 连续 自 变 量 的 预测 概率 效应 图 形 。 如 果 需 要 输出 多 副 
预测 概率 效应 图 形 ， 可 以 在 选项 EFFECT 后 面 的 括号 内 使 用 选项 X= 来 指定 需要 作 预 测 概率 效应 图 形 的 自 变 量 ， 如 有 多 个 自 变 量 ， 则 需要 用 括号 括 起 来 ， 例 如 : 











Plots= (effect (xX=(X1 x2 x3 ))); 





. MODEL 语 名 中 ， 在 因 变 量 后 面 的 小 括号 中 使 用 选项 EVENT= “1”， 表 示 BAD=1 时 事件 发 生 ， 因 此 LOGISTIC 回 归 模 型 计算 的 是 BAD=1 发 生 的 条 件 概率 。 选 项 EVENT 的 等 号 后 面 除 了 可 以 指定 因 变 
量 的 取 值 以 外 ， 也 可 以 使 用 关键 字 FIRST 或 者 LAST。 使 用 关键 字 FIRST 或 者 LAST 时 依赖 于 因 变 量 取 值 的 排列 顺序 ， 这 个 排列 顺序 可 以 使 用 选项 ORDER= 进 行 指定 。 关 键 字 FIRST 表 示 对 排 在 前 面 的 因 变 量 取 
值 进行 建 模 ， 默 认 情 况 下 ，EVENT=EFIRST; 关键 则 LAST 表 示 对 排 在 后 面 的 因 变 量 取 值 进行 建 模 。 注 意 ， 选 项 EVENT 等 号 后 面 的 值 必 须 用 括号 括 起 来 ， 当 因 变 量 取 值 大 于 2 个 时 ， 选 项 EFFECT 失效 。 


输出 结果 的 第 一 部 分 如 图 16.2 所 示 (该 结果 为 SAS 9.4 英 文 环境 下 运行 结果 ) 。 
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图 16.2 例 16.1 中 数据 集 简单 描述 
系统 对 建 模 用 的 数据 集 进行 了 简单 的 描述 ， 包 括 数 据 集 的 名 称 、 因 变量 (也 称 响应 变量 ) 的 名 称 及 不 同 取 值 的 个 数 、 模 型 的 种 类 和 用 来 估计 模型 参数 的 方法 、 读 入 及 参与 建 模 的 观测 的 个 数 等 。 


响应 概况 报表 中 输出 了 因 变 量 的 取 值 和 频数 ， 默 认 情 况 下 ，LOGISTIC 过 程 对 因 变量 按 升序 排列 ， 并 对 排 在 前 面 的 因 变量 的 取 值 进行 建 模 。 如 果 没有 使 用 选项 EVENT， 过 程 将 对 BAD=0 进 行 建 模 。 这 里 
因为 使 用 了 选项 EVENT= “1”， 因 此 过 程 输出 了 提示 ， 表 示 LOGISTIC 过 程 将 计算 BAD=1 的 概率 。 


接 下 来 ， 模 型 中 输出 了 拟 合 优 度 信息 ， 用 来 评价 模型 的 拟 合 优 度 和 假设 检验 等 信息 。 为 了 便于 读者 理解 ， 下 面 在 对 例 16.1 的 输出 进行 讲解 时 将 将 穿插 对 基础 概念 的 介绍 。 
16.2.2 ”假设 检验 


在 线性 回归 中 ， 我 们 假设 模型 具有 线性 形式 ， 因 此 ， 在 拟 合 线性 模型 的 过 程 中 ， 需 要 对 线性 形式 进行 假设 检验 。 同 样 的， 在 LOGISTIC 回 归 中 ， 也 需要 对 "与 … > 的 线性 形式 进行 假设 检验 ， 原 假设 
Ho 和 备 择 假 设 H1 分 别 为 : 


Ho: B1=B2=*…*=Bk=0 
Hi: B1, Bz, Bi 不 全 为 0 


在 LOGISTIC 回 归 中 ， 构 造 的 统计 量 是 X2， 其 检验 原理 与 线性 回归 中 类 似 。SAS 的 LOGISTIC 过 程 使 用 3 种 方法 进行 检验 ， 分 别 是 似 然 比 检验 (Likelihood Ratio) 、 评 分 检验 (Score) 和 Wald 检 验 。 通 
过 查看 P 值 ， 我 们 可 以 做 出 接受 原 假设 或 者 拒绝 原 假设 的 判断 : 当 P 值 小 于 给 定 的 显著 性 水 平时 ， 则 可 以 拒绝 原 假设 ， 认 为 “与 X1]，Xx2，…，Xk 有 具有 显著 的 线性 关系 ; 否则 ， 接 受 原 假设 ， 认 为 所 有 
Bm=0，0<m<k。 在 这 3 种 检验 方法 中 ， 似 然 比 检 验方 法 相对 于 其 他 两 种 方法 更 加 可 靠 ， 尤 其 是 在 小 样本 的 情况 下 。 


在 例 16.1 中 ， 关 于 该 假设 检验 部 分 的 输出 结果 如 图 16.3 所 示 。 


Testing Global Null Hypothesis: BETA=0 
Test Chi-Square | DF | Pr > Chisa 
Likelihood Rato rr .Bel 过 < OOD 
JCOre 1834. 1042 世 <.DUDT1 


Wald 1d43 485d4 | 2 二 .OU 


图 16.3” 例 16.1 中 LOGISTIC 过 程 假设 检验 报表 
这 里 P 值 <0.0001， 所 以 应 该 拒绝 原 假 设 。 


接 下 来 LOGISTIC 过 程 输出 了 参数 估计 。 为 了 能 够 更 好 地 解释 模型 参数 的 意义 ， 需 要 先 介 绍 一 下 和 模型 参数 相关 的 发 生 比 和 发 生 比 率 的 概念 。 
16.2.3 ”参数 估计 和 解释 
1. 发 生 比 (Odds) 


在 16.1 节 的 基本 原理 部 分 ， 介 绍 了 发 生 比 是 事件 发 生 的 概率 与 事件 不 发 生 的 概率 的 比值 ， 即 


” ”事件 不 发 生 的 概率 


既然 cdds 是 一 个 比值 ， 因 此 其 值 域 无 上 界 ， 即 可 以 在 所 有 非 负 值 域 取 值 。 当 比值 大 于 1 时 ， 事 件 更 可 能 发 生 。 比 如 ， 一 个 事件 发 生 的 概率 为 0.6， 那 么 事件 不 发 生 的 概率 为 0.4， 于 是 发 生 比 
odds=0.6/0.4=1.5， 这 意味 着 ， 事 件 发 生 的 可 能 性 是 不 发 生 的 可 能 性 的 1.5 倍 。 又 比如 ，odds=0.25， 则 说 明 事件 不 发 生 的 可 能 性 是 事件 发 生 可 能 性 的 4 倍 。 


2. 发 生 比 率 (Odds Ratio) 


发 生 比率 是 根据 发 生 比 计算 出 来 的 ， 用 来 比较 两 组 数据 中 事件 发 生 比 的 指标 。 在 LOGISTIC 回 归 中 ， 应 用 发 生 比率 来 解释 自 变 量 对 事件 发 生 概率 的 作用 。 


接 下 来 ， 用 一 个 例子 来 说 明 发 生 比 和 发 生 比率 的 概念 和 关系 。 现 有 180 条 观测 ， 其 中 组 A 售 有 80 条 观测 ， 组 B 含 有 100 条 观测 ， 在 组 A 中 有 60 条 观测 观察 到 事件 发 生 ， 组 B 中 有 90 条 观测 观察 到 事件 发 生 ， 
如 图 16.4 所 示 。 





图 16.4 计算 发 生 比 和 发 生 比 率 的 示例 数据 


那么 ， 组 A 中 事件 发 生 的 概率 为 60/80=0.75， 组 A 中 事件 不 发 生 的 概率 为 20/80=0.25， 则 组 A 中 的 发 生 比 odds=0.75/0.25=3; 组 B 中 事件 发 生 的 概率 为 90/100=0.9， 组 B 中 事件 不 发 生 的 概率 为 
10/100=0.1， 则 组 B 中 的 发 生 比 odds=0.9/0.1=9。 因 此 ， 组 8 相对 于 组 A 的 发 生 比率 odds ratio= 组 B 中 的 发 生 比 /组 A 中 的 发 生 比 =9/3=3， 它 是 组 8 与 组 A 发 生 比 之 间 的 差别 测量 。 这 一 发 生 比率 表示 ， 组 B 
中 事件 的 发 生 比 为 组 A 中 事件 的 发 生 比 的 3 倍 ， 


这 里 ， 如 果 把 组 A 和 组 B 看 成 一 个 自 变量 的 两 种 取 值 ， 那 么 发 生 比 率 就 可 以 理解 为 自 变量 对 事件 发 生 概率 的 作用 。 
大 于 1 的 发 生 比 率 表 明 事 件 发 生 的 可 能 性 会 提高 ， 或 者 说 ， 自 变量 对 事件 发 生 的 概率 有 正 的 作用 。 
:小 于 1 的 发 生 比 率 表示 事件 发 生 的 可 能 性 会 降低 ， 或 者 说 ， 自 变量 对 事件 发 生 的 概率 有 负 的 作用 。 
.发生 比率 为 1 表示 自 变 量 对 事件 发 生 概 率 无 作用 。 

在 了 解 了 发 生 比 和 发 生 比率 之 后 ， 再 来 看 例 16.1 中 的 关于 极 大 似 然 参数 估计 部 分 的 输出 ， 如 图 16.5 所 示 。 


报表 中 给 出 了 截 距 、DELINQ 和 DEBTINC 的 参数 估计 和 假设 检验 结果 ， 这 里 是 运用 Wald 卡 方 检验 法 对 参数 的 显著 性 进行 了 检验 ， 这 里 所 有 参数 的 P 值 都 小 于 0.0001， 说 明 参 数 都 是 显著 非 零 的 。 因 此 ， 
可 以 将 LOGISTIC 回 归 模 型 写成 如 下 形式 : 


ln (odds) =-4.4651+0.3713 xDELINQ+0.0764XDEBTINC 
可 以 看 出 ， 参 数 估 计 值 实际 上 是 相应 自 变量 增加 一 个 单位 时 In (odds) 的 改变 量 。 例 如 ， 这 里 变量 DELINQ 改 变 1 个 单位 时 ， 即 信用 记录 拖欠 次 数 增加 1 时 ， 不 良 贷款 发 生 比 的 对 数 取 值 将 增加 0.3713。 
LOGISTIC 回 归 模 型 也 可 以 改写 成 : 


odds=exp 〈-4.4651+0.3713XDELINQ+0.0764XDEBTINC) 


例如 ， 自 变量 DELINQ 增 加 一 个 单位 时 ，odds 将 增 大 e03713=1.450 倍 ，e03713 就 是 一 个 发 生 比 的 变化 率 ， 其 实 就 是 一 个 发 生 比率 。 在 SAS 的 LOGISTIC 过 程 中 ， 输 出 自 变量 增加 一 个 单位 时 的 发 生 比 率 
和 发 生 比 率 的 95% 置 信 区 间 如 图 16.6 所 示 (中 文 版 的 SAS 将 Odds Ratio Estimates 翻 译 成 了 优 比 估计 ， 更 准确 的 翻译 应 为 发 生 比率 估计 ) 。 


Analysis of Maximum Likelihood Estimates 


3tandard Wald 
Parameter | DF Estimate Error | Chi-Square | Pr> Chisg 


Intercept 1 -二 .二 昌 与 1 0.3152 200.65 7 昌 <.DOD1 


DELING 1 .3713 D0455 有 .OUUU1 





DEBTINC | 1 | 00764 | 0.00820 <.0001 


图 16.5 例 16.1 中 LOGISTIC 过 程 极 大 似 然 参数 估计 分 析 报 表 


tdds Ratlo Estmates 


95% Wald 
Efiect Pomt Estimate | CGConhdence Lirnts 


DELING 1 .4 二 0 1.3206 1.585 
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图 16.6 ” 例 16.1 中 LOGISTIC 过 程 发 生 比 率 估计 


变量 DELINQ 的 发 生 比 率 为 1.450， 表 示 当 信用 拖欠 次 数 增加 1 个 单位 时 ， 不 良 贷款 的 发 生 比 将 提高 1.450 倍 ; 变量 DEBTINC 的 发 生 比率 为 1.079， 表 示 当 资产 负债 率 提高 1 个 百分点 时 ， 不 良 贷款 的 发 生 
比 将 提高 1.079 倍 。 


概括 起 来 讲 ， 发 生 比 、 发 生 比 率 和 模型 参数 估计 之 间 有 如 下 的 关系 : 


) T XD 了 
odds = 和 = exp(a + Bixi + Bxy + +Bixs) = ec Xe x el x x em 


. 当 刀 为 正 数 时 ，e 硅 将 大 于 1， 说 明 自 变 量 每 增加 1 个 单位 值 时 ， 发 生 比 将 会 相应 地 增 大 e 硅 倍 ， 增 加 1 个 单位 前 后 的 发 生 比 率 为 e 针 。 
: 当 耻 为 负数 时 ，e 锋 将 小 于 1， 说 明 自 变量 每 增加 1 个 单位 值 时 ， 发 生 比 将 会 相应 地 缩小 e 猴 倍 ， 增 加 1 个 单位 前 后 的 发 生 比 率 为 e 旺 。 
当 BL=0 时 ，e 也 =1， 说 明 无 论 自 变量 怎么 变化 ， 发 生 比 都 不 会 变化 。 

将 LOGISTIC 回 归 模 型 表示 成 计算 预测 事件 发 生 的 概率 的 形式 如 下 : 


I 
′ 1+exp(-4.4651 +0.3713 x DELINQ + 0.0764 x DEBTINC) 


通过 该 表达 式 就 可 以 计算 出 每 条 观测 中 事件 发 生 的 预测 概率 了 。 


16.2.4 模型 评价 


在 模型 估计 完成 以 后 ， 需 要 来 评价 模型 是 否 能 够 有 效 地 描述 样本 数据 。 这 里 可 以 从 两 个 方面 来 看 ， 一 方面 是 查看 模型 的 拟 合 优 度 ， 一 方面 是 检查 模型 的 预测 准确 性 。 


1. 拟 合 优 度 评价 


在 统计 中 ， 有 多 种 方法 可 以 对 LOGICTIC 回 归 模 型 的 拟 合 优 度 进 行 评 价 。 常 用 的 评级 指标 是 信息 测量 类 的 指标 ， 即 AlC 准 则 (Akaike's A Information Criterion) 和 SBC 准 则 (也 称 为 SC 准则 : 即 
Schwarz's Bayesian Information Criterion) 。 在 SASs 的 LOGISTIC 过 程 中 ，AlIC 和 SC 的 计算 公式 如 下 。 


AlIC 准 则 的 公式 为 : 

AIC=-2log (L) +2k 

其 中 ，L! 为 似 然 函数 的 取 值 ，k 是 参数 的 个 数 。 
SBC 准 则 的 公式 为 : 

AIC=-2log (L) +klog (n) 

其 中 ，n 为 样本 容量 。 


在 这 里 ，AlC 准 则 和 SC 准则 只 适用 于 同一 数据 不 同 模型 之 间 的 比较 ， 也 就 是 说 ， 其 取 值 不 适合 用 于 不 同 数据 的 模型 之 间 进 行 比较 。 在 其 他 条 件 相同 时 ， 模 型 的 AIC 或 者 SC 取 值 越 小 说 明 模 型 拟 合 得 越 


在 例 16.1 中 ， 模 型 的 拟 合 优 度 信息 如 图 16.7 所 示 。 


2. 预 测 准 确 性 


在 这 里 要 介绍 的 一 类 评价 LOGISTIC 回 归 模 型 预测 准确 性 的 方法 ， 是 建立 在 因 变量 取 值 与 模型 预测 概率 之 间 的 关联 性 基础 之 上 的 。 有 若干 种 这 样 的 指标 可 用 来 评价 这 种 关联 性 ， 下 面 将 介绍 SAS 的 
LOGISTIC 过 程 默 认输 出 的 相关 指标 ， 包 括 指标 Gamma、Somers'D、Tau-a 和 Ic。 


LOGISTIC 回 归 模 型 的 因 变量 只 有 两 种 可 能 值 (0 或 者 1， 发 生 或 者 不 发 生 ) ， 我 们 可 以 按 事件 是 否 发 生 将 观测 分 成 两 组 ， 每 组 中 各 取 一 条 观测 ， 形 成 一 个 观测 数据 对 。 如 果 观 测 到 事件 发 生 组 的 观测 条 数 
为 100， 观 测 到 事件 未 发 生 组 的 观测 条 数 为 200， 则 总 共有 100x200=20000 个 观测 对 。 在 一 个 观测 数据 对 中 ， 如 果 事 件 发 生 的 观测 的 预测 概率 值 大 于 事件 未 发 生 的 观测 的 预测 概率 值 ， 就 定义 该 观测 数据 对 
为 和 谐 对 (concordant) ; 如 果 事 件 发 生 的 观测 的 预测 概率 值 小 于 事件 未 发 生 的 观测 的 预测 概率 值 ， 就 定义 该 观测 数据 对 为 不 和 谐 对 (discordant) 。 如 果 一 个 观测 数据 对 既 不 是 和 谐 对 ， 又 不 是 不 和 谐 
对 ， 也 就 说 ， 事 件 发 生 的 观测 的 预测 概率 值 等 于 事件 未 发 生 的 观测 的 预测 概率 值 ， 那 就 定义 该 观测 数据 对 为 结 (Tie) 。 相 关 指 标的 计算 公式 如 下 : 


nc 一 nd 
UD Gamma = 一 -一 一 一 
nc 十 72d 
， nc —nd 
DSomersD = 一 一 一 
nc —nd 
DTau-a 


- 0.Sn(n—-1) 


nc +0.S5(t-nc-nd) 
t 


想必 


其 中 ，n 为 样本 容量 ，t 为 总 的 观测 数据 对 数 ，nc 是 和 谐 对 的 数量 ，nd 是 不 和 谐 数据 对 的 数量 。 这 些 指标 用 于 同一 组 数据 的 不 同 模 型 之 间 的 比较 ， 指 标的 取 值 越 大 ， 说 明 模 型 的 预测 准确 度 越 高 。 指 标 c 
和 Somers'D 在 应 用 于 比较 LOGISTIC 模 型 时 通常 较 好 。 一 个 模型 的 c=0.613 代 表 了 使 用 该 模型 时 ， 观 察 到 事件 发 生 的 观测 的 预测 概率 值 比 观察 到 事件 未 发 生 的 观测 的 预测 概率 值 更 大 的 可 能 性 为 0.613， 它 是 
表示 模型 区 分 度 的 指标 。 


下 面 来 看 例 16.1 关 于 预测 准确 度 的 输出 结果 ， 如 图 16.8 所 示 。 
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图 16.7 例 16.1 中 模型 拟 合 优 度 统计 量 报表 
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图 16.8 例 16.1 中 模型 的 预测 准确 度 信 息 


在 图 16.8 中 ， 输 出 报表 的 第 2 列 输出 了 和 谐 对 、 不 和 谐 对 、 结 的 百分比 ， 也 输出 了 总 的 观测 数据 对 。 这 里 ， 我 们 知道 观察 到 事件 发 生 的 观测 有 357 条 ， 观 察 到 事件 未 发 生 的 观测 有 1458 条 ， 因 此 观测 数据 
对 为 357x1425=508725， 其 中 和 谐 对 占 了 68.1%， 不 和 谐 对 占 了 31.4%， 结 占 了 0.5%。 根 据 上 面 介绍 的 公式 ， 就 可 以 分 别 计算 出 4 个 指标 的 取 值 ， 其 中 c=0.684。 


例 16.1 最 后 还 输出 了 关于 连续 自 变量 DELINQ 的 预测 概率 效应 图 ， 如 图 16.9 所 示 。 其 中 ， 深 色 区 域 是 预测 概率 的 95% 置 信 区 域 。 该 例 中 LOGISTIC 模 型 含有 两 个 自 变 量 ， 因 此 在 作 关于 DELINQ 的 预测 概 
率 效 应 图 时 ， 另 一 个 自 变量 DEBTINC 的 取 值 为 自身 的 均值 。 图 形 表示 自 变 量 DELINQ 和 和 BAD 的 关系 是 正 向 的 ， 当 信用 记录 拖欠 交易 次 数 增加 时 ， 发 生 贷款 拖欠 的 可 能 性 增 大 。 
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图 16.9” 例 16.1 中 DELINQ 的 预测 概率 效应 图 


16.3 LOGISTIC 过 程 的 其 他 语句 


16.3.1 “CLASS 语句 


我 们 在 建立 LOGISTIC 回 归 模型 时 难免 会 遇 到 分 类 变量 ， 例 如 表示 性 别 ( 男 ， 女 ) 的 变量 ， 表 示 地 域 、 省 份 的 变量 ， 表 示 商 品种 类 的 变量 ， 以 及 一 些 次 序 变量 。 遇 到 这 种 类 型 的 变量 时 ， 需 要 企 


LOGISTIC 过 程 中 使 用 CLASS 语 句 。CLASS 语 句 将 在 拟 合 LOGISTIC 回 归 模 型 之 前 ， 对 这 些 分 类 变量 进行 预 处 理 ， 生 成 一 些 新 的 变量 ， 然 后 将 这 些 新 生成 的 变量 用 于 LOGISTIC 回 归 。 


CLASS 分 类 变量 1< (选项 ) > 分 类 变量 2< (选项 ) >< 分 类 变量 3> ... </ 全 局 选项 >; 


使 用 CLASS 语 句 的 基本 语法 为 : 











oo 


D1、 


邮 
二 
名 
时 
浪 
要 
任 
由 


CLASS 语句 必须 用 在 MODEL 语 句 之 前 ，CLASSs 语 句 中 的 大 部 分 选项 既 可 以 作用 在 单个 分 类 变量 上 ， 也 可 以 作用 在 CLASS 语句 指定 的 所 有 分 类 变量 上 。 当 选项 只 作用 于 单个 分 类 变 


变量 后 面 的 小 括号 中 。 作 用 于 所 有 分 类 变量 的 选项 也 称 为 全 局 选项 ， 必 须 写 在 所 有 分 类 变量 之 后 的 “/” 后面。 当 同 时 使 用 全 局 选项 和 作用 于 单个 分 类 变量 的 选项 时 ， 作 用 于 单个 分 类 变量 的 选项 的 优先 级 


类 变 
言 
[ 马 


CLASS 语 句 中 常用 的 选项 如 下 : 


: 选项 PARAM= 关 键 字 ， 用 来 指定 对 分 类 变量 进行 参数 化 的 方法 ， 常 用 的 关键 字 有 EFFECT、REFERENCE、ORDINAL 等 。PARAM=EFFECT 是 默认 选项 。 





. 当 PARAM=EFFECT 时 ， 如 果 分 类 变量 有 K 个 不 同 的 取 值 ， 也 称 K 个 水 平 ， 则 系统 将 自动 创建 k-1 个 新 的 变量 。 以 分 类 变量 VAR1 为 例 ，VAR1 有 4 个 不 同 的 取 值 1、2、3、4， 则 系统 将 创建 3 个 新 的 变量 


D2 和 D3， 这 3 个 新 变量 的 赋值 规则 如 图 16.10 所 示 。 
此 时 ， 新 变量 的 参数 估计 值 表 示 ， 和 平均 水 平 相 比 ， 当 变量 处 于 基 一 固定 水 平 ( 非 参考 水 平 ) 时 ， 发 生 比 的 对 数 的 改变 量 。 


这 里 面 还 需要 提 到 的 是 ， 当 VAR1 的 取 值 为 某 一 特定 水 平时 ， 所 有 新 变量 的 取 值 都 为 -1。 这 个 特定 水 平 称 为 分 类 变量 的 参考 水 平 (Reference Level) ， 可 以 使 用 选项 REF ='level'| 关 键 字 进行 指定 (下面 


当 VAR1 的 取 值 为 非 参 考 水 平时 ， 每 个 新 变量 的 取 值 只 在 VAR1 为 某 一 固定 水 平时 为 1， 其 余 情 况 下 都 为 0。 


" 当 PARAM=REFERENCE 时 ， 如 果 分 类 变量 有 Kk 个 水 平 ， 则 系统 将 自动 创建 K-1 个 新 的 变量 ， 赋 值 规则 和 PARAM=EFFECT 时 类 似 ， 但 是 ， 当 分 类 变量 的 取 值 为 参考 水 平时 ， 所 有 新 变量 的 取 值 为 0。 


以 上 面 的 VAR1 为 例 ， 新 变量 的 赋值 图 16.11 所 示 。 





图 16.10 3 个 新 变量 的 赋值 规则 (1) 





图 16.11 新 变量 的 赋值 规则 (2) 


此 时 ， 新 变量 的 参数 估计 值 表示 ， 和 参考 水 平 相 比 ， 当 变量 处 于 某 一 固定 水 平 ( 非 参考 水 平 ) 时 ， 发 生 比 的 对 数 的 改变 量 。 


. PARAM=ORDINAL 用 于 定 序 变 量 ， 系 统 将 根据 定 序 变量 的 不 同 水 平 〈 默 认 情 况 下 ， 按 水 平 的 升序 ) 创建 出 新 的 变量 。 此 时 ， 新 变量 的 参数 估计 值 表示 定 序 变 量 两 个 连续 水 平 下 发 生 比 的 对 数 的 改变 


jy 


. 选项 REF='level'| 关键 字 ， 用 来 指定 参考 水 平 ，PARAM=EFFECT 和 PARAM=REFERENCE 时 都 需要 指定 参考 水 平 。 


16.3.2 ODDSRATIO 语 句 


上 面 介绍 了 不 同 的 参数 化 方法 下 参数 估计 值 的 意义 ， 基 于 此 ， 可 以 比较 某 一 水 平 相对 于 平均 水 平 或 者 某 一 水 平 相对 于 参考 水 平 下 的 发 生 比 率 。 如 果 希 望 比较 分 类 变量 任何 水 平 之 间 的 发 生 比 率 ， 则 需要 
使 用 ODDSRATIO 语 句 ， 使 用 语法 如 下 : 


ODDSRATIO<'LABEL'> 自 变量 </ 选 项 >; 














ODDSRATIO 语 句 中 的 常用 选项 如 下 : 


“ 选项 CL=WALDIPLIBOTH， 用 来 指定 计算 置信 区 域 的 方法 。 当 CL=PL 时 ， 系 统 将 根据 剖面 函数 计算 置信 区 间 ， 样 本 容量 较 小 时 ， 建 议 指定 CL=PL; 当 CL=WALD 时 ， 系 统 将 根据 WALD 检 验 计 算 置 信 
区 间 ; 当 CL=BOTH 时 ， 系 统 将 分 别 用 两 种 方法 来 计算 置信 区 间 。 


. 如 果 自 变量 是 分 类 变量 时 ， 选 项 DIFF=REFIAII 用 来 指定 是 否 相对 于 参考 水 平 计 算 发 生 比 率 ， 黑 认 情 况 下 ，DIFF=AIL 表 示 比 较 所 有 水 平 间 的 发 生 比 率 ; 如 果 自 变量 是 连续 变量 ， 选 项 DIFF 将 被 忽 
略 。 


如 果 自 变量 是 连续 变量 时 ，ODDSRATIO 语 句 将 输出 自 变量 的 发 生 比 率 。 一 个 LOGISTIC 过 程 中 可 以 使 用 多 个 ODDSRATIO 语 句 。 


16.3.3 ”UNITS 语 句 


在 实际 操作 中 ， 我 们 常常 对 一 些 连 续 变 量 中 一 个 单位 值 的 变化 不 感 兴趣 ， 比 如 ， 年 龄 增加 1 岁 或 收入 增加 1 元 的 作用 非常 微小 ， 而 相对 离散 的 变化 ， 如 年 龄 增加 5 岁 或 收入 增加 100 元 的 变化 也 许 更 有 意 
义 。 在 LOGISTIC 过 程 中 ,为 了 计算 特定 单位 变化 的 发 生 比 率 ， 需 要 使 用 UNITS 语 句 。UNITS 语 句 的 基本 语法 如 下 : 














UNITS < 自 变量 1= 特 定单 位 列表 < 自 变 量 2= 特 定单 位 列表 ...>></ 选 项 >; 





其 中 : 


-UNITS 语句 中 指定 的 自 变量 必须 是 连续 型 自 变 量 。 


.特定 单位 列表 中 可 以 包含 非 震 数字 、SD 或 者 -SD、 非 霍 数字 *SD， 它 们 之 间 用 空格 隔 开 。SD 表 示 自 变量 的 样本 标准 差 。 例 如 ，VAR1=-2 指 定 系统 计算 当 自 变量 VAR1 减 少 两 个 单位 时 的 发 生 比 率 ; 
VAR1=2*SD 指 定 系 统计 算 当 自 变量 VAR1 增 加 两 个 样本 标准 差 时 的 发 生 比 率 。 


 /” 后 的 选项 有 DEFAULT= 特 定单 位 列表 ， 用 来 为 未 出 现在 UNITS 语 名 中 的 自 变 量 指定 特定 单位 列表 。 如 果 没 有 使 用 选项 DEFAULT= ， 过 程 将 不 会 为 未 出 现在 UNITS 语 名 中 的 自 变量 计算 特定 单位 
变化 下 的 发 生 比 率 。 


例 16.2: 运用 LOGISTIC 过 程 来 拟 合 银行 不 良 贷款 数据 ， 数 据 保存 在 数据 集 ex.loan 中 。 模 型 的 因 变 量 是 BAD， 考 虑 的 自 变 量 包 括 连 续 性 变量 DELINQ、DEBTINC 和 YROPEN ， 分 类 变量 为 
EDUCATION、REASON、PLOAN。 要 求 如 下 : 


` 使 用 UNITS 语 句 计算 当 贷 款 申 请 人 资产 负债 率 (DEBTINC) 变化 5 个 单位 时 发 生 比 的 变化 率 。 
" 所 有 的 分 类 交 量 都 必须 在 CLASS 语 句 中 指定 。 

. EDUCATION 的 参考 水 平 为 college，REASON 的 参考 水 平 为 cat。 

. 在 参数 估计 的 时 候 输出 标准 参数 估计 。 

. 使 用 ODDSRATIO 语 名 计算 REASON 所 有 水 平 之 间 的 发 生 比率 。 

. 输出 自 变 量 DELINQ、DEBTINC 和 EDUCATION 的 预测 概率 效应 图 。 

. 输出 自 变 量 REASON 和 EDUCATION 的 发 生 比 率 图 。 


示例 代码 如 下 : 





proc logistic data=ex.loan 
plots (only)= (effect (clbandx= (DELINO DEBTINC REASON)) 

oddsratio (type=horizontalstat range=clip)); 

class EDUCATION (ref="college") REASON (ref="car") /param=reference; 
model BAD (event="1") = DELINO DEBTINC YROPEN EDUCATION REASON/clodds=pl stb parmlabel; 
units DEBTINC=5 -5; 
oddsratio EDUCATION/diff=all cl=pl; 
oddsratio REASON/diff=all cl=pl; 
title "Bad Loan Model"™; 

En 







































































































































































上 述 程序 完成 了 以 上 7 项 要 求 ， 这 里 对 程序 中 所 用 的 选项 稍 加 说 明 。 


PROC LOGISTIC 语 和 句 中 的 选项 ODDSRATIO 指 定 系 统 将 默认 输出 的 发 生 比 率 和 置信 区 域 ， 以 及 将 ODDSRATIO 语 句 、 选 项 CLODDS 中 输出 的 发 生 比 率 和 置信 区 域 用 图 形 展现 出 来 。 选 项 ODDSRATIO 
的 常用 子 选项 为 TYPE 和 RANGE ， 它 们 必须 置 于 ODDSRATIO 后 面 的 小 括号 中 。TYPE=HORIZONTALSTAT 将 在 图 形 的 右 端 显 示 发 生 比 率 的 值 和 置信 区 间 ，RANGE=CLIP 指 定 图 形 的 横 坐 标的 取 值 范围 为 
从 计算 得 到 的 最 小 的 发 生 比 率 到 最 大 的 发 生 比 率 。 


" PROC LOGISTIC 语 句 中 选项 EFFECT 的 子 选 项 X 指 定 需要 做 预测 概率 效应 图 形 的 自 变量 ， 如 果 有 多 个 自 变 量 则 需要 用 括号 括 起 来 。 
.CLASS 语句 中 的 选项 PARAM 指定 分 类 变量 参数 化 的 方法 。 
* CLASS 语句 中 的 选项 REF 指 定 参考 水 平 。 


. MODEL 语 勿 中 的 选项 CLODDS 指 定 输出 发 生 比 率 的 置信 区 间 。 当 CLODDS=PL 时 ， 系 统 将 根据 剖面 函数 计算 置信 区 间 ， 样 本 容量 较 小 时 ， 建 议 指 定 CLODDS=PL; 当 CLODDS=WALD 时 ， 系 统 将 根 
据 WALD 检 验 计 算 置信 区 间 ; 当 CLODDS=BOTH 时 ， 系 统 将 分 别 用 两 种 方法 来 计算 置信 区 间 。 


* MODEL 语 和 句 中 选项 STB 表 示 系 统 将 输出 标准 化 系数 ， 根 据 标 准 化 的 LOGISTIC 回 归 系 数 可 以 比较 有 着 不 同 度 量 的 自 变量 对 事件 发 生 比 及 概率 的 作用 。 应 当 注 意 的 是 ， 通 常 标准 化 系数 是 用 来 比较 不 同 
度量 的 连续 自 变量 的 作用 大 小 的 ， 因 此 ， 对 于 分 类 变量 如 性 别 、 教 育 程度 等 ， 标 准 化 系数 也 就 没有 意义 了 。 


:MODEL 语句 中 的 PARAMLABEI 为 在 极 大 似 然 估 计 报 表 中 输出 变量 的 标签 。 
运行 上 述 代码 后 的 输出 结果 如 下 (该 结果 为 SAS 9.4 英 文 环境 下 运行 的 结果 ) 。 


如 图 16.12 所 示 ， 分 类 水 平 信息 报表 中 显示 分 类 变量 EDUCATION 被 参数 化 为 两 个 新 的 变量 了 ， 因 为 PARAM=REF 和 REF=college， 因 此 EDUCATION=college 是 参考 水 平 ; 同样 ，REASON 也 被 参数 化 
为 两 个 新 的 变量 了 ，REASON= car 是 参考 水 平 。 变 量 PLOAN 只 有 两 个 取 值 ， 因 此 只 需要 创建 一 个 新 的 变量 即 可 ，PLOAN=0 是 参考 水 平 。 


在 图 16.13 中 ， 模 型 拟 合 统计 量 报表 输出 了 模型 的 AIC 和 SC 值 ， 便 于 多 个 模型 之 间 的 比较 。 


The LOGISTIC Procedure 





Model Information 
Data EAX.LOAN 


Response Varmable BAD 
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图 16.12 ” 例 16.2 中 数据 集 简单 描述 和 分 类 水 平 信息 报表 


Convergence Criterion (GCONV=1E-8) satistied. 


Moedel Fit Statrstics 
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Type 3 Analysis of Effects 


Pr = Chidg 











1 bd 1750 < O001 
1 B39 专 _OUO1 
1 | 5.9116 0.0150 
2 0.8068 0.6680 
Reason | 2 87.5855 < .D001 


Pioan 1 | 1537109 < O001 


图 16.13 ” 例 16.2 中 模型 拟 合 优 度 统计 量 报表 和 假设 检验 报表 
似 然 比 检验 法 、 评 分 检验 法 和 WALD 检 验 法 的 p 值 都 小 于 0.0001， 说 明 Logit 与 自 变量 之 间 的 线性 关系 是 显著 的 。 
3 型 效应 分 析 报 表 中 的 输出 显示 了 模型 中 的 哪些 变量 是 显著 的 ， 哪 些 变量 是 不 显著 的 。 在 0.05 的 置信 水 平 上 ， 变 量 DELINQ、DEBTINC、YROPEN、REASON 和 PLOAN 都 是 显著 的 。 


极 大 似 然 估计 分 析 报 表 中 给 出 了 截 距 和 自 变 量 的 参数 估计 值 (也 就 是 回归 系数 ) 、 参 数 估计 的 标准 误差 ， 以 及 运用 Wald 卡 方 检验 法 对 参数 的 显著 性 进行 检验 的 结果 ， 此 外 由 于 在 MODEL 语 句 中 使 用 了 
选项 STB， 因 此 同时 也 输出 了 标准 化 估计 值 ， 如 图 16.14 所 示 。 对 于 标准 化 估计 值 ， 只 需要 关注 模型 中 连续 自 变量 的 标准 化 估计 即 可 ， 分 类 变量 的 标准 化 估计 值 意义 不 大 ， 可 以 不 做 参考 。 


Analysis of Maximum Likelihood Estimates 


standard Wald 3tandardized 
Parameter DF Estimate Error | Chi-S$quare | Pr> Chisg Estimate Label 
Intercept | - 寺 . 匀 175 0.3860 117.0776 .DOO1 Intercept: BAD=0 
DELING 1 0.4030 0D.0548 S44 1780 < OOO1 0.2808 
DEBTING 1 Ubb Q.00888 B3002 < DUO1 D338r 
YROPEN 1 :0.0250 0.0103 5.9116 0.0150 -0.1019 


Education Educastion graduate 





Education | high school 1 D1474 D.1641 0.8066 0.3891 D0.0408 Educstion high school 


Reason busmness 





Reascn hause 1 D.3487 0.2201 2 51009 .1131 008590 Resson house 


Ploan 1 1 -2.4639 0.2003 153.7 109 .DOO1 -0.6830 Pioan 1 


图 16.14 例 16.2 中 极 大 似 然 估计 分 析 报 表 


根据 LOGISTIC 回 归 模 型 的 公式 可 知 ， 自 变量 的 回归 系数 代表 了 当 自 变量 增加 1 个 单位 ， 其 余 自 变量 都 保持 不 变 时 ，logit 的 改变 量 。 例 如 ， 前 面 的 示例 中 ， 当 DEBTINC 增 加 1 个 单位 ， 其 余 自 变量 都 保持 
不 变 时 ， 拖 欠 贷 款 的 发 生 比 的 对 数 将 增加 0.0709。 


WALD 卡 方 检验 用 于 检查 参数 是 否 显 著 非 零 。 例 如 ， 这 里 的 变量 EDUCATION， 在 0.05 的 显著 性 水 平 上 ， 标 签 为 EDUCATIONgraduate 一 行 的 参数 估计 ， 表 示 当 EDUCATION 取 值 为 graduate 时 ,与 参 
考 水 平 college 相 比 ， 发 生 比 的 对 数 的 改变 量 ， 同 时 WALD 卡 方 检验 的 p 值 表示 该 参数 估计 不 是 显著 非 零 的 。 对 于 变量 REASON， 在 0.05 的 显著 性 水 平 上 ， 标 签 为 REASON business 一 行 的 参数 估计 表示 ， 当 
REASON 的 取 值 为 business 时 ， 与 参考 水 平 car 相 比 ， 发 生 比 的 对 数 的 改变 量 为 1.5111， 并 且 是 显著 非 零 的 。 


由 于 各 自 变量 的 度量 是 不 一 样 的 ， 因 此 在 进行 自 变量 对 模型 作用 的 比较 时 ， 直 接 拿 自 变量 的 回归 系数 进行 比较 是 不 合适 的 ， 这 时 需要 运用 标准 化 估计 值 来 进行 比较 。 其 实 ， 这 点 和 线性 回归 分 析 中 是 一 
样 的 ， 但 是 在 LOGISTIC 回 归 和 线性 回归 中 ， 计 算 标准 化 估计 值 的 方法 是 有 区 别 的 ， 有 兴趣 的 读者 可 以 查阅 SAS 帮 助 文档 。 标 准 化 估计 值 的 绝对 值 可 以 用 来 比较 自 变量 对 模型 的 作用 ， 需 要 指出 的 是 ， 根 据 分 
类 变量 创建 的 新 的 变量 只 有 两 种 取 值 ， 标 准 化 后 没有 实际 意义 ， 基 于 此 计算 的 标准 化 参数 可 以 不 做 参考 。 


在 这 个 例子 中 ， 虽 然 变量 DELINQ 的 参数 估计 值 (0.4030) 比 变量 DEBTINC 的 参数 估计 值 (0.0709) 大 ， 但 是 变量 DELINQ 的 标准 化 估计 值 (0.2808) 比 变量 DEBTINC 的 标准 化 估计 值 (0.3387) 小 ， 
说 明 相 比较 而 言 ， 变 量 DEBTINC 的 预测 能 力 较 大 。 


在 图 16 15 中 ，C 信 为 0.853， 表 示 员 家 到 事件 发 生 的 观测 雍和 家 到 事件 未 发生 的 观测 的 于 玉昌 大 的 可 能 作为 0853 
Assocmatron of Predrcted Probablitres and 
Lbserved Responses 
Percent Goncordamnt B92 | Mers DO 
Percent Discordant 14.5 | Gamma D.708 
Percent Thed D2 | Tau-a D227 


Pairs G25 | EE D08503 


图 16.15 ” 例 16.2 中 模型 的 预测 准确 性 信息 


因为 在 程序 中 使 用 了 ODDSRATIO 语 句 指定 系统 对 分 类 变量 EDUCATION 和 REASON 各 个 水 平 的 发 生 比 率 进行 比较 ， 因 此 输出 了 发 生 比 率 估计 (Odds Ratio Estimates) 和 剖面 似 然 置信 区 间 (Profile- 
Likelihood Confidence Intervals) 报表 ， 如 图 16.16 所 示 。 其 中 ，Estimate 一 列 输出 了 发 生 比 率 。 这 里 稍微 解释 一 下 标签 列 的 意义 ， 举 例 来 说 ，Reason business vs car 表 示 Reason 的 取 值 为 business 与 
Reason 的 取 值 为 car 进 行 对 比 ， 发 生 比率 的 估计 =Reason 为 Business 时 的 发 生 比 除 以 Reason 为 car 时 的 发 生 比 。 在 95%Confidence Limits 包 含 的 两 列 中 ， 只 有 Reason business vs car 和 Reason business 
vs house 的 95% 置 信 限 中 不 包含 1 (发 生 比 率 等 于 1 时 ， 表 示 不 同 水 平 对 于 发 生 比 是 无 差别 的 ) ， 因 此 ，Reason business vs car 的 发 生 比率 和 Reason business vs house 的 发 生 比率 是 显著 的 。 


DOdds Ratic Estimates and Profile=Likelihood Confidence Intervals | 























Label | Estimate | Jd5% Confidence Limits | 
Education graduate vs college 人 .0 总 日 旧 . 7 | 1.041 
Educastion high school vs college 1.159 0 Bs1 1.802 
Educastion graduate vs high school D.948 0.653 1.388 


Reascon busness Ve Car 


Reason busness VS house 





Reason house vs car 人 417 D0921 2 185 


图 16.16 例 16.2 中 发 生 比 紊 估计 和 剖面 似 然 置信 区 间 报 表 
当 发 生 比 率 大 于 1 时 ， 例 如 ，Reason business vs house 的 发 生 比 率 为 3.197， 表 示 Reason 为 business 时 拖欠 贷款 的 发 生 比 比 Reason 为 house 时 拖欠 贷款 的 发 生 比 提高 了 3.197 倍 。 


PROC LOGISTIC 语 句 中 选项 PLOTS 将 发 生 比 率 估计 和 剂 面 似 然 置 信和 区间 用 图 形 展示 出 来 ， 如 图 16.17 所 示 。 可 以 看 到 ， 只 有 Reason business vs car 和 Reason business vs house 的 95% 置 信 区 间 和 发 
生 比 率 为 1 的 参考 线 不 相交 ， 说 明 Reason business vs car 的 发 生 比 率 和 Reason business vs house 的 发 生 比 率 是 显著 的 。 


Odds Ratios with 95% Profile-Likelihood Confidence Limits 
Education graduate vs college — 1.0997 (0.733, 1.6414) 
Education high school vs collaege 一 1.1588 (0.8414, 1.6016) 
0.9482 (0.6525 1.3683) 


Education graduate vs high school 


Reaeason business vs car 4 5316 (3.1895 6.5345) 


31974 (2.2565, 4.589) 


Reason business vs house 


Reason house vs car 1.4173 (0.9208 2.1853) 
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Ddds Ratio 


图 16.17 例 16.2 中 发 生 比 率 估 计 和 剖面 似 然 置信 区 间 图 


图 16.18 展 示 的 这 张 报表 也 是 一 张 发 生 比 率 估 计 和 剖面 似 然 置信 区 间 报 表 ， 因 为 在 MODEL 语 句 中 使 用 了 选项 CLODDS= PL， 故 输出 了 该 报表 。UNIT9 语 句 的 使 用 ， 使 得 报表 中 输出 了 当 自 变量 DEBTINC 


增加 或 减少 5 个 单位 时 的 发 生 比 率 及 置信 区 间 估 计 。 观 察 报 表 ， 由 于 我 们 在 UNITS 语 句 中 只 指定 了 连续 自 变 量 DEBTINC 及 其 特定 单位 列表 ， 因 此 这 里 只 输出 了 连续 


率 。 如 果 需 要 输出 所 有 连续 自 变 量 的 发 生 比 率 ， 需 要 在 UNITS 语 句 中 使 用 选项 DEFAULT。 该 报表 的 分 析 方 法 和 图 16.17 中 的 报表 一 样 。 


Ddds Ratio Estimates and Profile-Likelihood Confidence Intervals 











Effect 

DEBTING | 5.0000 1.426 
DEBTING =bG.00U0 0.AoOi 
Education graduate vs college 1.0000 1.089 
Education high school vs college | 1.0000 1.158 
Heason business ws car 1.0000 4.03e 
Heason house vs car 1.0000 1.417 
Ploan 1 ws 0 1.0000 0.083 


图 16.18 例 16.2 中 对 应 UNITS 语句 发 生 比 率 估计 和 剖面 似 然 置信 区 间 报 表 


现在 考虑 一 下 发 生 比率 小 于 1 时 如 何 解 读 变 量 ， 例 如 ， 当 变量 DEBTINC 减 少 5 个 单位 时 ， 发 生 比 变 为 原来 的 0.701 倍 。 也 可 以 通过 百分比 的 方式 来 表达 ， 
减少 5 个 单位 时 ， 拖 从 贷款 的 发 生 比 降低 了 29.99%。 


同样 ，PROC LOGISTIC 过 程 中 的 选项 PLOTS 将 上 面 的 发 生 比 率 估计 和 剖面 似 然 置信 区 间 报 表 也 用 图 形 展示 出 来 ， 如 图 16.19 所 示 。 


Odds Ratios with 95% Profile-Likelihood GConfidence Limits 


DEBTING units=5 


DEBTING units=-5 出 


Education graduate vs collaege 


Education high school vs collage 


Reason business VS car 


Reason house vs car 


Ploan 1 ws | -性 





Ddds Ratio 


图 16.19 ” 例 16.2 中 对 应 UNITS 语 句 时 发 生 比 率 估 计 和 剖面 似 然 置信 区 间 图 


接 下 来 输出 的 是 预测 概率 效应 图 。 由 于 子 选项 X= (DELINQ DEBTINC REASON) ， 因 此 分 别 输出 了 3 个 关于 自 变 量 的 预测 概率 图 。 当 模型 中 含有 多 个 变量 时 ， 在 做 某 一 个 自 变 量 的 预测 概率 图 时 ， 其 


余 连 续 自 变量 的 取 值 都 为 均值 ， 分 类 自 变量 的 取 值 为 参考 水 平 。 


1 31 
D641 
D733 
D841 
J,189 
D .921 


0.055 


变量 DEBTINC 和 所 有 分 类 变量 的 发 生 比 


Umt | Estimate (35% Confidence Limits 


1.559 
0.7864 
1.641 
1.802 
6.534 
2.185 


0 122 


(0.701-1) *100%=-29.9%， 即 当 资 产 负 1 


He 1 4257 (1.3097, 1.5591) 


0.7014 (0.6414, 0.7636) 


1 .0987 (0.733, 1.6414) 


1.1588 (0.8414, 1.6016) 


Oo 4.5316 (3.1895, 6.5345) 


1.4173(0.9208, 2.1853) 


0.0834 (0.0554, 0.1218) 


DELINQ 和 DEBTINC 都 是 连续 变量 ， 两 个 变量 和 预测 概率 之 间 的 关系 都 是 正 向 的 ， 如 图 16.20 和 图 16.21 所 示 。 当 DELINQ (信用 拖欠 交易 次 数 ) 的 取 值 越 大 时 ， 预 测 拖欠 贷款 发 生 的 概率 越 大 ; 当 
DEBTINC (资产 负债 率 ) 的 取 值 越 大 时 ， 预 测 拖欠 贷款 发 生 的 概率 越 大 ， 这 也 是 符合 规律 的 。 


Predicted Probabilities for BAD=1 with 95 Confidence Limits 
At Education=collage Reason=car Ploan=s0 DEBTINC=34.53 YROPEN=8.673 
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图 16.20” 例 16.2 中 DELINQ 的 预测 概率 效应 图 


Predicted Probabilities for BAD=1 with 995% Confidence Limits 
At Education=collage Reason=car Ploan=0 DELING=0.761 YROPEN=8 .673 
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图 16.21 例 16.2 中 DEBTINC 的 预测 概率 效应 图 


分 类 变量 REASON 的 预测 概率 效应 图 如 图 16.22 所 示 ， 该 图 和 连续 变量 的 预测 概率 效应 图 有 一 些 差 别 。 分 类 变量 的 预测 概率 效应 图 的 横 坐 标 是 分 类 变量 的 不 同 水 平 ， 长 方形 的 上 下 两 条 边 表示 预测 概率 的 
959% 置 信 上 限 和 置信 下 限 ， 长 方形 中 间 的 圆圈 表示 预测 概率 。 图 形 表示 ， 当 REASON 的 水 平 为 business 时 ， 预 测 概率 较 大 。 


Predicted Probabillities for BAD=1 with 95% Confidence Limits 
At Education=college Ploan=0 DELING=0.761 DEBTINC=34.53 YROPEN=8.673 
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图 16.22” 例 16.2 中 REASON 的 预测 概率 效应 图 


16.4 建立 模型 


前 面 章节 已 经 介绍 了 LOGISTIC 函 数 、LOGISTIC 回 归 模 型 的 假设 检验 、 参 数 估计 、 模 型 评价 ， 以 及 运用 SAs LOGISTIC 过 程 的 拟 合 模型 ， 本 节 将 讨论 建立 模型 的 有 关 问 题 。 


16.4.1 目 变 量 与 Logit 值 的 天 系 


在 建 模 初始 阶段 ， 普 人 遍 的 做 法 是 假设 LOGISTIC 回 归 是 关于 自 变量 的 线性 函数 。 不 管 一 个 自 变量 与 因 变 量 之 间 的 关系 是 线性 的 还 是 非 线 性 的 ， 只 要 这 个 变量 真 的 重要 ， 拟 合 线性 模型 总 是 可 以 得 到 显著 的 
回归 系数 。 但 是 一 旦 确定 这 个 变量 很 重要 ， 就 要 从 建立 模型 的 角度 去 考虑 如 何 取得 正确 的 参数 估计 。 一 个 以 自 变量 线性 组 合 的 LOGISTIC 回 归 模型 也 许 在 函数 形式 上 就 是 不 正确 的 ， 也 就 是 说 ， 很 有 可 能 
Logit (pi) 并 不 是 自 变 量 的 线性 组 合 函 数 ， 而 是 自 变量 的 非 线 性 组 合 的 函数 ， 例 如 ， 包 含 自 变量 的 二 次 项 和 自 变 量 的 交叉 相 乘 项 等 。 


如 何 探索 Logit (Pi) 和 自 变量 之 间 是 否 为 线性 或 者 非 线性 关系 呢 ? 常见 的 一 种 方法 是 ， 将 相应 的 连续 自 变量 或 定 序 变量 的 取 值 分 成 若干 组 ， 在 每 组 中 找 出 因 变 量 的 平均 值 。 这 种 方法 也 适用 于 
LOGISTIC 回 归 ， 对 每 个 组 找 出 组 中 的 logit 值 和 自 变 量 的 均值 ， 并 由 此 作出 一 条 曲线 ， 那 么 这 条 曲线 称 为 Logit 图 。 通 常 ， 建 议 每 组 中 的 观测 条 数 一 样 ， 并 且 要 包含 不 少 于 15 条 观测 。 


如 果 logit (pi) 与 自 变量 之 间 存 在 线性 关系 ， 那 么 所 画 出 的 点 便 会 藻 在 一 条 直线 上 ， 如 果 男 出 的 点 不 在 一 条 直线 上 ， 便 说 明 存 在 logit (pi) 与 自 变量 之 间 存 在 着 非 线 性 天 系 。 公 式 如 下 : 


ln(odds) = nT) = (| 二 (二 


当 某 一 组 中 出 现 事件 发 生 的 概率 为 1 或 者 为 0 时，logit 的 取 值 将 趋向 于 oo 或 者 -0。 为 了 避免 这 种 情况 的 发 生 ， 要 在 -的 分 子 和 分 母 中 都 加 上 一 个 很 小 的 常数 项 : 


In(odds) = In| Me 


7; — e, +0.5 


图 16.23 展 示 了 两 组 关于 自 变 量 的 Logit 图 ， 左 图 中 自 变量 和 Logit (pi) 呈 线 性 关系 ， 满 足 LOGISTIC 回 归 模 型 中 关于 Logit (pi) 的 线性 假设 ;) 右 图 中 自 变量 和 Logit (pi) 呈 二 次 函数 关系 ， 可 以 考虑 在 
Logit (pi) 的 线性 模型 中 添加 自 变 量 X 的 二 次 项 ,或 者 根据 自 变量 X 的 取 值 创建 两 个 虚拟 变量 X1 和 X2， 表 将 交叉 项 X:X1 和 X:X2 引 入 Logit (pi) 的 线性 模型 中 ， 从 而 提高 模型 的 拟 合 效果 。 


Logit(Pj 
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图 16.23 ”Logit 图 示例 
例 16.3: 根据 数据 集 ex.loan 中 的 数据 制作 关于 自 变 量 DEBTINC 与 因 变 量 BAD 的 Logit 图 。 


示例 代码 如 下 : 








proc sort data=ex.loan out=work.1loan; 
by DEBTINC; 











run; 
proc rank data=work.loan out=work.ranks groups=50; 
var DEBTINC; 
ranks rk; 
run; 
proc means data=work.ranks noprint nway; 
class rk; 
Var DEBTINC BAD; 
output out=work.bins sum (BAD)=BAD mean (DEBTINC)=DEBTINC n (BAD)=counts; 



















































































EllYy 
data work.bins; 

set work.bins; 

logit=1log ( (BAD+0.5)/ (counts-BAD+0.5)); 








uny 
proc sgplot data=work.bins; 

reg x=DEBTINC y=logit; 

scatter x=DEBTINC y=]ogit; 

yaxis label="Estimated Logit"; 

title "Estimated Logit Plot of DEBTINC"; 
run; 

































































在 上 述 代码 中 ， 由 于 DEBTINC 是 连续 变量 ， 因 此 先 调 用 RANK 过 程 将 根据 DEBTINC 取 值 的 观测 等 分 成 50 个 组 (建议 组 数 = 总 观测 数 /每 组 观测 数 ， 每 组 观测 数 可 以 在 20 到 30 之 间 ) ， 青 调 用 MEANS 程 序 
计算 出 每 组 的 频数 、 每 组 中 事件 发 生 的 频数 和 每 组 中 自 变量 DEBTINC 的 均值 (参考 第 9 章 中 MEANS 过 程 ) ， 然 后 通过 DATA 步 计算 出 每 组 中 的 Logit 值 ， 最 后 调用 SGPLOT 过 程 作出 Logit 的 散 点 图 和 回归 直 
线 。 


Logit 图 如 图 16.24 所 示 。 


Estimated Logit Plot of DEBTINC 
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图 16.24” 交 量 DEBTINC 的 Logit 图 


在 上 述 图 形 中 ， 除 了 第 一 组 的 Logit 值 外 ， 没 有 明显 的 证 据 表 明 DEBTINC 和 Logit 之 间 存 在 非 线 性 的 关系 。 


16.4.2 ” 目 变 量 的 互动 作用 


当 因 变量 受 某 个 自 变量 影响 时 ， 该 自 变量 对 因 变 量 影 响 的 大 小 同时 还 依赖 于 一 个 或 者 多 个 其 他 自 变量 的 取 值 ， 那 么 称 为 该 自 变 量 与 其 他 自 变量 间 存 在 互动 作用 。 例 如 ， 受 教育 程度 和 贷款 原因 的 互动 意 
味 着 受 教育 程度 对 是 否 拖欠 贷款 的 作用 还 依赖 于 贷款 原因 。 换 句 话 说 ， 对 于 不 同 的 贷款 原因 ， 受 教育 程度 的 影响 是 不 一 样 的 。 


互动 项 是 通过 一 个 高 次 项 加 入 模型 的 ， 让 我 们 来 看 一 个 包含 互动 项 的 LOGISTIC 回 归 模 型 的 例子 。 
| p _ . . 
n| 一 一 一 = a +pBx + Bx +D3XI“。X2 
| -六 
其 中 ，x1-X2 是 一 个 互动 项 。 如 果 系 数 P3 显 著 区 别 于 0， 就 表明 x1 和 Xx2 人 存在 互动 作用 。 


在 LOGISTIC 过 程 中 引入 互动 项 的 语法 如 下 : 














PROC LOGISTIC DATA= 输 入 数据 集 选 项 ; , 
MODEL 因 变 量 = 自 变量 1 自 变 量 2 自 变 量 1* 自 变量 2 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/OEBPS/Text/... </ 选 项 >; 
RUN; 


HH 
六 
















































































模型 中 引入 了 自 变 量 1 和 自 变量 2 的 互动 项 。 

然而 ， 当 模型 中 有 很 多 自 变 量 时 ， 人 们 通常 只 检验 那些 特别 可 能 的 互动 项 ， 或 者 检验 所 有 可 能 的 互动 项 。 例 如 ， 对 只 有 3 个 自 变 量 (x1，x2，x3) 的 模型 ， 可 能 的 互动 项 如 下 : x1:X2、X1:X3、X2:X3、 
x1:X2:X3， 前 3 个 称 为 二 次 互动 项 ， 第 4 个 互动 项 称 为 三 次 互动 项 。 在 一 个 相对 简单 的 模型 中 ， 检 验 所 有 可 能 的 互动 项 还 是 有 一 定 的 可 能 的 ， 在 LOGISTIC 过 程 中 ， 也 提供 了 比较 简单 的 语法 以 便 在 模型 中 引入 
多 个 互动 项 ， 语 法 如 下 : 








PROC LOGISTIC DATA= 输 入 数据 集 选 项 ; 
MODEL 因 变 量 = 自 变量 1 自 变 量 2 自 变量 3 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/OEBPS/Text/... 自 变量 k 
自 变 量 1 | 自 变 量 2| 自 变 量 3|http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/OEBPS/Text/...| 自 变量 k @2 </ 选 项 >; 
RUN; 
















































































其 中 ， 坚 线 和 @ 2 表示 在 LOGISTIC 回 归 模 型 中 引入 自 变量 1、 自 变量 2、...、 自 变量 k 的 所 有 可 能 的 二 次 互动 项 。 如 果 @ 后 面 的 数字 是 3， 则 表示 在 模型 中 引入 自 变 量 1、 自 变量 2、...、 自 变量 k 的 所 有 可 
能 的 二 次 互动 项 和 三 次 互动 项 。 


随 着 模型 中 的 自 变量 数量 的 增加 ， 也 就 给 检验 自 变 量 的 互动 作用 带 来 了 巨大 的 计算 量 ， 通 常 在 实际 操作 中 ， 我 们 的 做 法 是 只 检验 那些 在 实际 中 可 能 性 较 大 并 具有 一 定 商业 意义 的 互动 项 。 


16.4.3 ”模型 选择 


为 了 建立 模型 ， 可 以 任意 在 模型 中 加 入 自 变量 ,然后 进行 模型 比较 检验 ， 以 选择 拟 合 数据 较 好 的 模型 。 在 介绍 REG 过 程 的 时 候 ， 已 经 介绍 了 模型 选择 的 3 种 逐步 选择 法 ， 同 样 的 ， 在 LOGISTIC 过 程 中 ， 


也 有 相应 的 逐步 选择 法 。 使 用 模型 选择 方法 的 语法 如 下 : 























MODEL 因 变 量 = 自 变量 1 自 变 量 2 自 变 量 3 http://www.hzcourse.com/resource/readl 


/ SELECTION=FORWARD |BACKWARD|STEPWISE |SCORE 















































Book?path=/openresources/teach ebook/uncompressed/15092/OEBPS/Text/... 自 变量 















































选项 SELECTION= 有 以 下 4 种 取 值 : 


. FORWARD 称 为 向 前 选择 法 。 第 一 步 ， 建 立 包含 一 个 自 变量 的 模型 ， 这 个 自 变 量 是 所 有 自 变量 中 最 显著 的 一 个 ; 第 二 步 ， 从 其 余 的 自 变量 中 选择 一 个 进入 模型 ， 使 得 进入 的 自 变 量 是 剩余 自 变量 中 
显著 重要 的 ， 重 新 拟 合 模型 ， 重复 第 二 步 ， 直 到 剩余 变量 中 没有 变量 显著 重要 。 选 项 SLENTRY= 是 FORWARD 方 法 引入 变量 的 准则 ， 默 认 情 况 下 ，SLENTRY=0.05。 


` BACKWARD 称 为 向 后 消除 法 ， 和 FORWARD 方 法 正好 相反 。 第 一 步 ， 初 始 情况 下 ， 建 立 一 个 包含 所 有 自 变 量 的 模型 ; 第 二 步 ， 保 留 模型 中 的 显著 变量 ， 吻 除 最 不 显著 的 自 变 量 ， 重 新 拟 合 模型 ; 重复 


， 直 到 模型 中 所 有 变量 都 是 显著 的 为 止 。 选 项 SLSTAY= 是 BACKWARD 方 法 不 噜 除 变 量 的 准则 ， 默 认 情 况 下 ，SLSTAY=0.05。 
. STEPWTISE 称 为 逐步 回归 法 ， 综 合 了 FORWARD 方 法 和 BACKWARD 方 法 。 第 一 步 和 FORWARD 方 法 一 样 ， 建 立 一 个 只 包含 一 个 自 变 量 的 模型 ; 第 二 步 ， 在 模型 中 引进 新 的 自 变量 ， 同 时 ， 别 除 现 有 自 


变量 中 的 不 显著 变量 ; 重复 第 二 步 ， 直 到 所 有 的 自 变量 都 被 筛选 完 ， 并 且 模 型 中 的 自 变 量 都 是 显著 的 为 止 。 默 认 情 况 下 ， 选 项 SLENTRY=0.05，SLSTAY=0.05。 
. SCORE 和 REG 过 程 中 的 全 部 选择 法 类 似 ， 过 程 将 自动 拟 合 251 个 模型 ， 其 中 K 为 回归 项 的 个 数 。:; 


通常 SELECTION=SCORE 会 与 选项 BEST=m 同 时 使 用 ， 作 用 是 : 将 不 同 的 模型 按 所 含 自 变量 的 个 数 分 
成 不 同 的 组 ， 自 变量 个 数 相同 的 模型 在 同一 组 ， 每 


一 组 中 ， 根 据 卡 方 统计 量 ， 选 择 前 m 个 模型 。 需 要 注意 的 是 ， 当 SELECTION=SCORE 时 ，LOGISTIC 过 程 中 不 能 使 用 CLASS 语句 ， 因 此 需要 在 调用 
LOGISTIC 过 程 拟 合 模型 之 前 对 分 类 变量 进行 参数 化 。 


若 模 型 中 引入 了 自 变 量 的 互动 项 ，LOGISTIC 过 程 将 通过 MODEL 语 句 中 的 选项 HIERARCHY = 来 控制 自 变量 和 自 变 量 的 互动 项 是 进入 还 是 剔除 出 模型 ， 使 用 语法 如 下 : 




















MODEI 因 变 量 = 自 变量 1 自 变 量 2 自 变 量 3 ... 自 变量 k 
自 变 量 1* 自 变量 2 自 变量 1* 自 四 
/ HIERARCHY=SINGLE |MULTIPLE |NONE 




















~ 







































































选项 HIERARCHY= 有 以 下 3 种 取 值 ， 在 SELECTION =FORWARD|BACKWARDISTEPWISE 时 起 作用 。 


. SINGLE: 这 是 选项 HIERARCHY= 的 默认 取 值 ， 当 进行 逐步 模型 选择 时 ， 每 次 只 能 有 一 个 自 变 量 或 自 变量 的 互动 项 被 选 进 或 剔除 出 模型 ， 并 且 ， 当 自 变量 的 互动 项 在 模型 中 时 ， 构 成 互动 项 的 自 变量 
必须 在 模型 中 。 


* MULTIPLE: 当 使 用 逐步 选择 法 时 ， 保 持 基 本 原则 ， 当 菜 自 变量 的 互动 项 在 模型 中 时 ， 构 成 该 互动 项 的 自 变量 必须 在 模型 中 。 但 是 ， 进 行 逐步 模型 选择 时 ， 如 果菜 个 自 变 量 由 于 显著 性 被 选 入 模型 ， 
那么 它 的 互动 项 也 可 能 同时 被 选 入 模型 中 《要 求 构 成 互动 项 的 其 他 自 变量 也 在 模型 中 ) ; 如 果菜 个 自 变量 的 交互 项 由 于 不 显著 而 被 剔除 出 模型 ， 那 么 构成 该 互动 项 的 自 变 量 也 有 可 能 同时 被 剔除 出 模型 。 与 
HIERARCHY=SINGLE 时 不 一 样 的 是 ， 不 再 要 求 每 一 步 中 只 能 有 一 项 ( 自 变量 或 者 自 变量 的 互动 项 ) 进入 或 者 别 除 出 模型 。 


NONE: 此 时 进行 逐步 模型 选择 时 ， 不 再 要 求 当 自 变量 的 互动 项 在 模型 中 时 ， 构 成 互动 项 的 自 变量 必须 在 模型 中 。 


如 果 模 型 中 包含 自 变量 互动 项 ， 并 且 也 包含 构成 互动 项 的 所 有 自 变 量 ， 那 么 则 称 模型 保持 了 层级 结构 。 如 果 模 型 保持 了 层级 结构 ， 那 么 即使 分 类 自 变 量 指定 了 不 同 的 参数 化 方法 (第 16.3.1 中 介绍 
过 ) ， 模 型 的 检验 结果 仍 是 保持 不 变 的 。 如 果 模 型 没有 保持 层级 结构 ， 那 么 对 不 同 的 参数 化 方法 ， 检 验 结果 可 能 有 差异 。 


LOGISTIC 过 程 的 自动 逐步 选择 法 使 得 我 们 避免 多 次 运用 LOGISTIC 过 程 来 比较 不 同 自 变量 对 模型 的 贡献 ， 但 是 ， 自 动 选择 法 仅仅 是 依据 统计 标准 操作 的 ， 所 以 ， 最 好 将 其 看 作 是 变量 筛选 或 者 建立 模型 
的 初步 步骤 ， 主 要 用 于 探测 性 分 析 ， 因 为 计算 机 程序 可 能 选 到 完全 无 关 甚 至 有 悖 商业 意义 的 自 变 量 ， 变 量 的 选择 、 评 价 和 模型 的 最 终 建 立 应 该 由 分 析 人 员 负 责 ， 而 不 能 完全 依赖 于 计算 机 。 


例 16.4: 运用 LOGISTIC 过 程 的 向 前 选择 方法 拟 合 银行 不 良 贷 款 数据 ， 数 据 保存 在 数据 集 ex.loan 中 ， 在 拟 合 过 程 中 注意 保持 模型 的 层级 结构 。 模 型 的 因 变量 是 BAD， 考 虑 的 自 变量 包括 连续 性 变量 
DELINQ、DEBTINC 和 YROPEN,， 分 类 变 


类 变量 为 EDUCATION、REASON、PLOAN， 并 且 要 考虑 DELINQ 和 DEBTINC 的 互动 项 ， 以 及 DEBTINC 和 EDUCATION 的 互动 项 。 
示例 代码 如 下 : 


proc logistic data=ex.1loan; 

class EDUCAT ee he REASON (ref="car") PLOAN (ref="0") /param=reference; 

model BAD (event="1") = DELINO DEBTINC YROPEN EDUCATION REASON PlOAN DELINO* 
DEBTINC DEBTINC*EDUCATION 

/stb parmlabel selection=forward hierarchy=single details; 

title "Forward Selection"; 

Un 
































































































































该 代码 的 部 分 输出 如 图 16.25 所 示 。 


由 于 选项 SELECTION=FORWARD， 因 此 第 0 步 时 ， 拟 合 的 模型 中 只 有 截 距 项 ， 残 差 的 卡 方 检验 比较 了 由 全 部 自 变 量 和 两 个 互动 项 拟 合 的 全 模型 与 当前 模型 。 残 差 卡 方 检验 的 原 假设 是 全 模型 和 当前 模 
型 没有 显著 性 差别 ， 但 这 里 的 p 值 小 于 0.0001， 因 此 ， 拒 绝 原 假设 ,说 明 全 模型 和 当前 模型 具有 显著 差别 ， 也 说 明了 ， 在 全 部 的 自 变量 和 互动 项 中 存在 着 有 价值 的 项 。 


因为 MODEL 语 句 中 使 用 了 选项 DETAIL， 因 此 也 输出 了 每 一 步 中 尚未 进入 模型 的 自 变量 的 显著 性 检验 结 


吉 果 ， 如 图 16.26 所 示 。 这 里 ， 变 量 DELINQ、DEBTINC、REASON 和 PLOAN 都 是 显著 的 。 下 一 
步 ， 系 统 将 会 从 这 4 个 变量 中 选择 一 个 p 值 最 小 的 变量 进入 模型 。 


step 0. Intercept entered: 































= DOOD 


| 人 0 
1 6.9791 | 0 0087 














9 01491 ng2s2 
137.1684 | <.D001 
242.1047 | <D0O1 





图 16.26” 例 16.4 中 向 前 选择 法 第 0 步 尚未 进入 模型 的 自 变量 显著 性 检验 


第 一 步 时 ， 变 量 Ploan 进 入 模型 ， 随 后 输出 了 模型 拟 合 的 效果 及 参数 估计 和 假设 检验 结果 ， 并 且 对 只 含 截 距 项 和 变量 Ploan 的 模型 和 全 模型 进行 了 比较 ， 如 图 16.27 所 示 。 得 知 当前 模型 和 全 模型 仍然 具 
有 显著 差异 ， 也 就 是 说 ， 还 有 剩余 的 变量 和 互动 项 中 还 存在 有 价值 的 项 。 图 16.28 中 输出 了 第 1 步 中 尚未 进入 模型 的 自 变 量 的 显著 性 检验 结果 。 


(中 间 省 略 部 分 输出 结果 ) 


Step 1. Efect Ploan entered.: 





Model Convergence Status 





























1511.930 





LogL 1785.007 ] 1307.930 




































Testng Global Null Hypothesis: BETA=0 | 
Test Chi- Square oF pr> ChisSq : 
Likelihood Ratio +| <_DO01 

Score <.0001 
Wald 112.56012 1 < O00 





















































\ Wald 
Effect DF | Chi-Square Pr> ChiSq 











‘Ploan| 1 172.5512 <.0001 












































Analysis of Maximum Likelihood Estimates 


| | ] Standardized 
.Parameter JIF | Estimate ] Label 


| intercept BAD=D 
< O001 .0.6790 | Ploan 1 









































图 16.27 例 16.4 中 向 前 选择 法 第 1 步 模 型 输出 











Association of Predicted Probabilities and 
Observed Responses 
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DELINQ | 1| 68.9215 





DEBTINC | 1| 813625 


























2 1.2177 


Reason 2| 105.6418 


























图 16.28 例 16.4 中 向 前 选择 法 第 1 步 沿 未 进入 模型 的 自 变量 显著 性 检验 


在 变量 YROPEN 进 入 模型 之 后 ， 系 统 重新 拟 合 了 模型 ， 如 图 16.29 所 示 。 残 差 的 卡 方 检验 显示 当前 模型 和 全 模型 之 间 没 有 显著 差异 ， 如 图 16.30 所 示 。 此 时 ， 只 剩 下 变量 Education 没 有 进入 模型 ， 并 且 


该 变量 的 p 值 为 0.5242， 不 显著 ， 如 图 16.30 所 示 。 因 此 ， 系 统 输出 如 图 16.31 所 示 的 信息 。 


1 9 9488 | 





二 .LUU 1 





< OOO 


Step 6. Effect YROPEN entered: 


Model Convergence 3tatus 





Convergence critarion (GCONV=1E-8) satisfied. | 































































Model Fit Statistics 






1254.872 






1298.756 










































1238.812 





























图 16.29 ” 例 16.4 中 向 前 选择 法 第 6 步 模 型 输出 















































Type 3 Analysis of Effects 
: | Wald | | 
Effect DF | Chi-Square | Pr> Chisq 
DELING | 1 976o0| <0001 
_DEBTINC 1 734053 <000 
YROPEN 1 6.6173 0.0101 
z Reason 2 B09.2722 | .O001 | 
| Ploan 1| 1532033 | <o00i 





DELING*DEBTINC | 1| 19.4627 < 0001 














D4752 | “122.4063 























Plcan 1 






































DELINGQ * DEBTING 














Score 
DF Chi-Square | Pr> Chisgq 





1.20168 0 5242 





Education : 二 














图 16.30 例 16.4 中 向 前 选择 法 第 6 步 残 差 检验 和 尚未 进入 模型 自 变 量 检验 


Note- No (sddiionah effects met the 0.05 significanca level for entry into the model. 





图 16.31 例 16.4 中 向 前 选择 法 剩余 的 自 变 量 中 再 无 显著 自 变 量 


在 最 后 ， 系 统 对 向 前 选择 过 程 中 依次 进入 模型 的 变量 进行 了 简单 的 汇总 ， 如 图 16.32 所 示 。 


Summary of Forward Selection 


Eftfect Number JCOrE 
step | Entered DF In | Chi-Square | Pr Chisg 


1 | Ploan 1 | 2d2 1047 蕊 ODT1 
二 | Reason 号 105.0418 .OOO 
3 | DEBTING 1 了 .3232 O001 


DELING | 二 E58.79850 < DODT1 
5 | DELING DEBTING 1 0 过 | .1 总 十 二 .LU 


6 | YROPEN | 8 6.6680 0.0088 


图 16.32 ” 例 16.4 中 进入 模型 的 变量 汇总 信息 


最 终 的 模型 中 包含 了 变量 Ploan、Reason、DEBTINC、DELINQ 和 YROPEN， 以 及 互动 项 DELINQ*DEBTINC。 


16.5 本章 小 结 


本 章 首 先 介绍 了 LOGISTIC 回 归 模 型 的 推导 过 程 、 假 设 条 件 和 参数 估计 的 基本 原理 。 然 后 介绍 了 用 SAS 的 LOGISTIC 过 程 拟 合 LOGISTIC 回 归 模 型 的 基本 用 法 ， 随 后 结合 示例 ， 引 出 了 发 生 比 和 发 生 比 率 的 
概念 ， 并 讨论 了 LOGISTIC 回 归 模 型 中 的 参数 与 发 生 比 率 的 关系 ， 以 及 如 何 评价 LOGISTIC 模 型 拟 合 优 度 和 预测 准确 性 。 在 此 基础 上 ， 介 绍 了 如 何 运用 LOGISTIC 过 程 中 其 他 语句 分 析 发 生 比 率 。 最 后 ， 讨 论 了 
如 何 探索 自 变 量 与 Logit 值 的 关系 、 自 变量 之 间 的 互动 作用 ， 以 及 运用 LOGISTIC 过 程 进行 模型 选择 的 方法 。 


第 17 草 ”时间 序列 分 析 


在 经 济 学 、 工 程 学 、 自 然 科学 (特别 是 地 球 物理 学 和 气象 学 ) 和 社会 科学 等 领域 ， 被 研究 的 对 象 在 其 发 展 过 程 中 ， 由 于 受到 各 种 偶然 因素 的 影响 ， 往 往 表现 出 某 种 随机 性 ， 它 们 常常 被 记录 成 一 系列 随 
时 间 而 变化 的 数据 序列 。 我 们 把 按时 间 顺 序 生成 的 、 等 时 间 间 隔 的 这 种 数据 序列 称 为 时 间 序列 。 


很 多 数据 都 是 以 时 间 序列 的 形式 出 现 的 ， 比 如 : 某 种 产品 的 月 度 需求 量 、 公 路 事故 的 周 度数 量 、 某 化 工 过 程 每 小 时 的 产 出 量 ， 等 等 。 时 间 序 列 的 一 个 本 质 特征 就 是 相 邻 观测 值 之 间 具 有 相互 依赖 性 ， 这 
种 依赖 特征 具有 很 大 的 实用 价值 。 时 间 序 列 分 析 就 是 对 这 种 依赖 性 进行 分 析 的 技术 。 


本 章 中 将 讨论 如 何 建立 、 识 别 、 拟 合 和 检验 时 间 序 列 模型 ， 并 结合 SAs 软 件 中 的 TIMESERIES 过 程 、ARIMA 过 程 、FORECAST 过 程 、AUTOREG 过 程 及 ESM 过 程 ， 介 绍 如 何 对 平稳 时 间 序 列 和 非 平稳 时 
间 序 列 进行 建 模 和 预测 。 


17.1 时 间 序 列 基本 概念 
为 了 便于 后 面具 体 时 间 序列 分 析 方法 的 介绍 ， 本 节 中 先 介绍 基本 概念 


17.1.1 了 解 时 间 序 列 


如 果 一 个 时 间 序 列 中 的 时 间 是 连续 的 ， 那 么 该 时 间 序 列 就 是 连续 的 。 如 果 时 间 是 离散 的 ， 那 么 该 时 间 序 列 就 是 离散 的 。 因 此 ， 一 个 离散 时 间 序 列 在 时 刻 t{，t2，.…，tN 得 到 的 观测 值 就 可 以 记 为 
y (t1) ，y (t2) ，...,，y (tN) 。 在 本 章 中 ， 仅 仪 考 虑 离散 的 时 间 序 列 。 注 意 ， 时 间 序 列 中 的 观测 值 是 按照 固定 的 时 间 间 隔 取 得 的 ， 时 间 间 隔 可 以 是 秒 、 分 钟 、 小 时 、 天 等 。 


如 果 一 个 时 间 序 列 的 取 值 取决 于 某 些 数学 国 数 ， 如 … ” 则 称 该 时 间 序 列 是 确定 性 的 。 如 果 一 个 时 间 序 列 的 未 来 值 只 能 用 概率 分 布 的 形式 来 描述 ， 则 表示 该 时 间 序列 不 具有 确定 性 ， 称 为 统计 时 间 序列 。 
时 间 序 列 图 ， 也 称 为 时 序 图 ， 就 是 一 个 二 维 坐 标 图 ， 横 坐标 表示 时 间 ， 纵 坐标 表示 序列 取 值 。 时 序 图 可 以 直观 地 帮助 我 们 了 解 时 间 序列 的 一 些 基 本 分 布 特征 。 如 图 17.1 所 示 就 是 一 个 时 序 图 ， 该 图 展示 了 从 
1990 年 1 月 到 2013 年 12 月 美国 国内 航线 旅客 数量 ( 源 数 据 来 自 http://www.transtats.bts.gov 网 站 ) ， 每 个 圆圈 代表 着 一 个 观测 值 。 尽 管 在 这 个 序列 中 有 明确 的 上 下 波动 形状 ， 但 是 要 想 准 确 地 预测 下 一 个 
时 段 的 值 仍然 是 不 可 能 的 。 这 就 是 本 章 所 关注 的 统计 时 间 序列 。 
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图 17.1 ”从 1990 年 1 月 至 2013 年 12 月 美国 国内 航线 旅客 数量 


如 果 要 考察 美国 国内 航线 的 旅客 数量 ， 很 明显 是 要 考虑 时 间 t 的 ， 所 以 可 以 把 旅客 数量 表示 为 Y (t) 。 对 每 一 个 确定 的 时 间 to，Y (to) 都 是 一 个 随机 变量 。 理 论 上 t 的 取 值 范 围 是 (-c，+co) ，Y (t) 
为 无 穷 多 个 依赖 于 时 间 t 的 随机 变量 ， 我 们 称 之 为 随机 过 程 。 


对 随机 过 程 Y (t) 的 值 进行 一 次 观测 和 记录 ， 就 可 以 得 到 在 本 章 开始 时 所 提 到 的 一 系列 随时 间 而 变化 的 数据 序列 ， 实 际 上 该 序列 已 经 是 一 个 确定 (而 非 随机 的 ) 常规 意义 的 函数 Y (t) ， 我 们 称 之 为 随 
机 过 程 Y (t) 的 一 个 现实 。 当 随机 过 程 Y 〈t) 的 现实 的 时 间 参 数 为 离散 的 ， 并 且 时 间 取 值 的 间隔 相等 时 ， 那 么 该 现实 就 是 一 个 时 间 序 列 。 在 美国 国内 航线 旅客 数量 的 示例 中 ， 如 果 我 们 仅仅 关心 时 间 t 为 月 份 
的 情况 ， 我 们 所 记录 到 的 X(t) 在 1990 年 1 月 到 2013 年 12 月 的 一 系列 值 ， 就 是 一 个 表示 美国 国内 航线 每 个 月 份 旅客 数量 的 时 间 序 列 。 


时 间 序 列 分 析 的 目的 是 选择 恰当 的 技术 和 方法 ， 建 立 合适 的 随机 过 程 模型 ， 由 时 间 序 列 的 当前 值 和 过 去 值 对 未 来 值 进行 预测 ， 并 解释 和 描述 外 部 因素 和 异常 干扰 对 于 时 间 序 列 的 影响 ， 进 而 通过 设计 有 
效 的 控制 方法 对 时 间 序 列 进行 控制 。 


17.1.2 时间 序列 的 数字 特征 


时 间 序 列 分 析 方 法 是 根据 时 间 序 列 观测 间 的 依赖 性 特点 来 建立 模型 ， 所 以 对 该 依赖 性 特征 的 识别 很 重要 。 用 图 形 的 方法 可 以 在 一 定 程度 上 识别 时 间 序 列 的 特征 ， 且 很 直观 。 来 看 几 组 时 序 图 ， 如 图 
17.2~ 图 17.4 所 示 。 
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图 17.2 ”时 间 序 列 1- 因 特 尔 公司 股票 月 度 成 交 量 
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图 17.3 “时间 序列 2- 国 内 原油 月 度 产 量 


这 些 图 形 的 特点 如 下 。 


:时间 序列 1: 该 时 间 序 列 变化 平稳 ， 无 明显 的 周期 特征 ， 无 明显 的 趋势 。 


时间 序列 2: 该 时 间 序 列 有 明显 的 增长 趋势 。 


.时间 序列 3: 该 时 间 序 列 变化 平稳 ， 但 有 明显 的 周期 性 特征 。 
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[ 
图 17.4 ”时 间 序 列 3- 北 京 月 度 平均 气温 
但 是 图 形 识 别 不 是 量化 的 标准 ， 所 以 往往 不 够 准确 。 


时 间 序 列 的 数字 特征 是 时 间 序 列 的 重要 统计 特征 ， 也 是 量化 识别 时 间 序 列 的 重要 依据 。 假 设 {Yn} 是 一 个 时 间 序 列 ， 可 以 考察 它 所 具有 的 数字 特征 有 哪些 。 


` 均值 函数 : “1 .WF。(y) 是 Ya 的 分 布 函数 。 
上 方差 水 数 : Dy, = EO, p00) = pd,y) 
自 协 方差 函数 : 72+ 有 = 如 -p06 -hj) 也 记 为 Yk， 方差 函数 是 自 协 方差 函数 的 特殊 情况 。 


. 自 相关 函数 : “i 自 相关 函数 描述 了 时 间 序 列 中 不 同 观测 之 间 的 线性 相关 程度 ， 也 就 是 依赖 性 程度 ， 也 记 为 ok。 


需要 注意 的 是 ， 昌 然 hn，Y (n，n+k) 和 p (n，n+k) 被 Yn 的 分 布 唯一 决定 ， 但 是 反 过 来 ， 一 般 情况 下 ， 并 不 能 由 hn、Y (n，n+k) 和 p (n，n+k) 唯一 确定 Yn 的 分 布 。 也 就 是 说 ， 具 有 不 同 分 布 的 
时 间 序列 可 以 有 相同 的 均值 函数 、 自 协 方差 函数 和 自 相关 函数 。 但 对 于 大 量 的 实际 应 用 而 言 ， 通 过 以 上 数字 特征 来 掌握 时 间 序列 的 统计 特性 已 经 足够 了 。 时 间 序 列 分 析 正 是 通过 分 析 时 间 序列 的 数字 特征 来 
分 析 时 间 序列 的 行为 和 特点 的 。 


满足 以 下 条 件 的 时 间 序列 称 为 平稳 时 间 序 列 : 

"EY,=h， (与 0 无 关 ) ， 对 于 YnET 

“© (n,ntk) =@ (k) ( 仅 与 时 间 间 隔 kE 有 关 ) ， 对 于 Vn, kET 

换 名 话说， 平稳 时 间 序 列 的 均值 是 常数 ， 方 差 也 是 常数 ， 序 列 没有 明显 的 变化 趋势 ， 观 测 值 始终 围绕 在 同一 个 水 平 线 上 下 波动 。 图 17.2 符 合 平稳 时 间 序 列 的 特征 ， 图 17.3 是 非 平 稳 时 间 序 列 。 
满足 以 下 条 件 的 时 间 序列 称 为 白 噪声 序列 ， 也 称 为 纯 随 机 序列 : 

.EY,=0，vnET 

:be 


从 定义 来 看 ， 白 噪声 序列 是 平稳 时 间 序 列 中 的 特例 。 由 于 日 噪声 序列 不 同时 刻 的 取 值 相互 独 六 (从 自 相关 遂 数 判断 ) ， 因 此 从 已 知 的 观测 值 不 能 对 未 来 进行 推断 和 预测 ， 所 以 白 噪声 序列 不 能 用 来 建立 
模型 。 图 17.5 是 一 个 白 噪 声 序 列 的 时 序 图 。 
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图 17.5 “和 白 噪声 序列 
平稳 时 间 序 列 和 和 白 噪 声 序 列 在 后 面 的 讨论 中 将 经 党 出 现 。 
在 实际 应 用 中 ， 由 于 信息 的 缺乏 ， 我 们 往往 不 可 能 知道 时 间 序 列 理 论 均值 和 自 相 关 函 数 ， 但 是 通过 样本 可 以 计算 样本 的 均值 和 样本 的 自 相关 函数 。 
假设 有 一 组 时 间 序 列 的 观测 值 为 yX1，y2，…，yN， 其 中 N 称 为 样本 长 度 ， 则 : 
时 间 序 列 的 样本 均值 为 


时 间 序 列 的 样本 自 相 关 函 数 为 ”- ”7”' 其 中 ， 


N-k 
> 各 加 y) 加 7 ) 
六 二 
一 一 
2 N 一 大 
特别 地 ， 当 k=0 时 ，; 二 二 也 就 是 说 ， 
N-k 
> (%, 加 y) We y) 
六 t=1 
Di = 


N 
>》 0-7) 
t=l 


样本 自 相关 浮 数 可 以 作为 时 间 序 列 自 相关 遂 数 的 一 个 估计 。 


17.1.3 ”常见 平稳 和 非 平 稳 模 型 
前 面 说 过 ， 时 间 序 列 是 随机 过 程 的 一 个 现实 。 我 们 对 时 间 序 列 进行 分 析 ， 就 是 希望 根据 时 间 序 列 的 特征 ， 找 到 可 以 刻画 这 个 时 间 序 列 的 随机 过 程 。 


接 下 来 ， 将 介绍 描述 时 间 序 列 的 一 类 重要 随机 模型 : 平稳 模型 。 平 稳 模 型 会 假设 随机 过 程 保持 概率 特征 上 的 统计 均衡 ， 其 均值 和 方差 不 随时 间 而 改变 ， 即 变化 都 是 在 一 个 固定 的 均值 水 平 上 ， 具 有 固定 
的 方差 。 这 类 模型 非常 适合 用 来 对 平稳 时 间 序 列 进行 刻画 。 


通常 ， 我 们 用 yt，yt-1，yt-2，… 来 表示 等 间隔 时 间 t，t-1，t-2，.… 上 的 序列 值 ， 用 "一 “来 表示 关于 h 的 序列 偏差 ， 其 中 为 时 间 序列 的 均值 。 


1. 算 子 


为 了 便于 对 平稳 模型 和 非 平 稳 模 型 进行 介绍 ， 首 先 引 入 后 移 算 子 B， 后 移 算 子 B 定 义 为 Byt=yt-1， 从 而 有 Bnyt=yt_n。 其 逆 运 算 由 前 移 算 子 F= B-1 通 过 Fyt=yt+1 给 出 ， 从 而 Fnyt=yt+n。 另 一 个 重要 的 算 子 
是 向 后 差分 算 子 ， 它 可 用 v 表 示 ， 定 义 为 Yyt=yt-yt-1， 如 果 用 B 的 表达 式 来 表示 ， 则 有 vyt=yt-Byt= (1-B) yt。 


2. 自 回归 模型 


在 描述 某 类 实际 中 出 现 的 时 间 序 列 时 ， 一 种 特别 有 用 的 随机 模型 是 自 回 归 模 型 。 在 该 模型 中 ， 随 机 过 程 的 当前 值 被 表达 为 由 有 限 的 过 程 先前 值 的 线性 组 合 和 一 个 干扰 ( 白 噪声 ) st 构成 ， 其 形式 如 下 : 


天 中 yt by yt + P, y,» 


该 等 式 表示 的 随机 过 程 称 为 p 阶 自 回归 过 程 ， 简 称 AR (p) 过 程 。 其 中 ,一 ，b 为 时 间 序 列 的 均值 。 称 其 为 自 回 归 是 因为 这 是 从 线性 回归 中 发 展 而 来 的 ， 但 是 ， 这 里 不 再 是 用 x 预 测 y， 而 是 用 y 自 身 的 
历史 值 来 预测 y， 也 称 AR 模 型 。 如 果 引入 后 移 算 子 B， 那 么 由 上 面 的 等 式 可 以 很 容易 地 推导 出 p 阶 自 回归 算 子 为 : 


9 (B) =1-91B-92B …-9pBP 
从 而 ，p 阶 AR 模型 就 可 以 简 记 为 : 
由 (B)y ~, 
该 模型 中 包含 了 p+2 个 未 知 参 数 H、 中 1、 中 2、.…、 中 p、0“2e， 在 实际 中 ， 这 些 参数 必须 由 数据 来 估计 ， 中 1、 中 2、.…、 中 p 称 为 自 回归 参 数 ， 参 数 a“e 为 白 噪声 过 程 st 的 方差 。 
需要 特别 说 明 的 是 ，1 阶 AR 模型 记 为 AR (1) ， 也 可 以 表示 为 : 
yt= 中 0+ 中 1yt-1+St 
其 中 ,qo=H (1- 中 1) 。 


在 上 面 的 自 回归 模型 中 ， 可 以 将 


Ye 


天 pa 路 尖 :2 中 y 本 9, tp-1 Er1 


” 和 


代入 二 077 中 消去 7… 采 用 类 似 方法 可 以 继续 代 换 “ 等 ， 最 后 得 到 一 个 的 无 限 加 权 和 。 


考虑 简单 的 1 阶 AR 模 型 ， 经 过 m 次 替换 后 ， 即 令 ” "站 “… "在 右边 可 以 得 到 : 


yy 二 中 Pi 十] te 0 了 7 路 5， 证， es 中 mp 


[一 7 


当 m 一 时 ， 将 得 到 无 穷 级 数 “在 一 般 的 AR 模 型 中 ， 有 “这 等 价 于 : 


Am 


7 二 中 (B)e=y(B)s, 


(1) 自 相关 遂 数 


对 于 AR (p) 模型 得 307 .+7 st-+ 甸 sta. 两 边 同 乘 + 


取 数 学 期 望 ， 当 k> 0 时， 期 望 20… 5 为 0， 因 为 ?~ 只 涉及 直到 t-k 时 刻 的 干扰 ， 故 与 st 不 相关 。 所 以 可 得 如 下 差分 方程 : 


py Pyert Pape st**t by Yep, 0 
上 式 两 边 同 除 以 Yo， 则 得 到 自 相关 函数 满足 同样 的 差分 方程 : 
Pp 二 Bpet Ppr st*t Pprp, CO 


因此 ， pk 的 通 解 可 以 表示 为 pk=A1G“1+Az2Gk2+..ApG 9， 其 中 G-11， 二 G- 1 是 特征 方程 (B) =1- 中 1B- 中 2B“-…- 中 opBP=0 的 根 。 

为 了 AR 过 程 的 平稳 性 ， 要 求 |Gi|<1。 

由 特征 方程 (B) =0 的 根 的 性 质 可 知 ， 一 个 平稳 的 自 回归 过 程 的 自 相关 遂 数 的 变化 趋势 是 由 指数 衰减 和 正弦 波 振 荡 豪 减 构成 的 。 这 是 我 们 根据 自 相关 函数 判断 序列 平稳 性 的 理论 基础 。 
(2) 自 回归 参数 的 表示 

令 k=1，2，...，p， 对 于 AR (p) 模型 ， 两 边 同 乘 *“， 并 取 数 学 期 望 ， 且 同时 除 以 yo， 可 以 得 到 以 下 线性 方程 组 

1=YP180+ P201+***+YpEp-1 


@2 二 91C1 十 中 200 十 十 中 pCp-2 


op 二 9lCk1+T 中 2Ck-2 十 … 十 gpC0 


该 线性 方程 组 通常 称 为 Yule-Walker 方 程 ， 其 中 po=1。 用 样本 自 相关 系数 “代替 pk， 就 得 到 了 自 回 归 参 数 p1， 中 2，…， 中 p 的 Yule-Walker 估 计 。 如 果 我 们 记 


9 pi | PI Pp2 Pd 

中 ， ) | ) “wi 
四 = 罗 ， pp— Ss P= 区 9 

中 pi Pp-1! Pp-2 Pp-3 | 


则 参数 解 9 可 以 表示 为 p=p 1ppp。 
(3) 偏 自 相 关 遂 数 
在 分 析 一 个 时 间 序 列 时 ， 最 初 我 们 可 能 不 知道 适合 于 观测 序列 的 AR 过 程 的 具体 阶 数 ， 即 p 的 取 值 ， 要 采用 类 似 于 在 多 元 回归 中 的 方法 去 确定 自 变量 的 个 数 。 其 实 ， 这 时 可 以 参考 偏 自 相关 函数 。 


偏 自 相关 函数 是 基于 以 下 事实 的 一 种 摘 述 手段 : 只 要 一 个 AR (pP) 过 程 具有 无 限 延伸 的 自 相关 函数 ， 那 么 ， 就 可 有 自 相关 遂 数 的 p 个 非 零 钠 数 来 描述 自身 的 特性 。 若 用 qk 表示 Kk 阶 差分 方程 回归 表达 式 式 
中 的 第 个 系数 ，qpkk 就 是 最 后 一 个 系数 。 由 此 可 得 到 Yule-Walker 方 程 ， 记 为 : 


用 p! Pp 和 om] 网 
pi | pi .Da | bp Pp?2 


Pe-1 Pr-2 Per-3 ~ | Di pt 
对 k=1，2，3，...， 依 次 求解 方程 ， 可 以 得 到 : 

| pp, pi 

| pp J 上 上 遍 

p! pP, 前 -二 而 p» Pp! 3 

qi =p, qb, = 5 ， 中 = 

| pp | -pi lL pi 0 

D1 | D1 | jp 

Da dh 1 


对 于 任何 平稳 过 程 ， 都 可 以 由 上 述 Yule-Walker 方 程 定义 偏 自 相关 函数 pkk， 当 然 也 都 是 作为 过 程 自 相 关 函 数 pk 的 函数 。 并 且 ， 对 于 AR (p) 过 程 ， 对 于 所 有 的 k>p， 有 kk=0， 该 特征 均 适 合 于 描述 p 
阶 AR 过 程 。 


中 kk 之 所 以 可 称 为 时 间 序 列 {ytj 延 迟 为 k 的 偏 自 相关 函数 ， 这 是 因为 pkk 实 际 上 等 于 yt 和 yt-k 之 间 扣 除了 yt-1、yt-2、…、yt-kc1 的 影响 之 后 的 相关 函数 ， 也 可 以 认为 是 yt 和 yt-k 之 间 未 被 yt-1、yt-2、.: 
1 所 解释 的 相关 关系 。 


yt-k- 


因此 ， 在 求 偏 自 相关 函数 的 估计 时 ， 可 以 顺 次 拟 合 阶 数 为 1、2、3.… 的 自 回归 方程 ， 在 每 阶段 的 拟 合 中 挑 出 最 后 一 个 系数 ， 得 到 估计 和 和 


Quenouille 证 明了 : 在 p 阶 AR 过 程 的 假设 之 下 ， 阶 数 大 于 或 者 等 于 p+1 的 偏 自 相关 估计 值 近似 服从 均值 为 0、 方 差 为 1/n 的 独立 正 态 分 布 ， 其 中 n 为 观测 个 数 。 这 一 论断 可 以 作为 判断 AR 模 型 阶 数 p 的 取 
值 依据 之 一 。 


3. 移 动 平均 模型 
自 回归 模型 是 将 序列 的 偏差 ”表示 为 p 个 过 去 值 ;"、”-”、… ”的 有 限 加 权 和 ， 再 加 上 一 个 白 噪 声 。 利 用 上 面 的 推导 方法 在 自 回归 模型 中 将 ”、… ”等 代 换 掉 ， 可 以 将 ”表示 为 的 无 限 加 权 和 |。 


假若 ;线性 依赖 于 有 限 的 q 个 e 的 过 去 值 ， 如 


y =E.—08, 1—0,8, )—" . 一 5 


该 等 式 称 为 q 阶 移动 平均 过 程 (MA) ， 是 另 一 类 有 重要 实践 意义 的 模型 。 “移动 平均 ”一 词 可 能 会 导致 某 些 误解 ， 因 为 乘 在 上 的 权 数 1，-61，-62，…，-6q 不 必 总 和 为 1， 也 不 必 是 正 数 。 但 是 这 一 专 
业 术 语 已 被 广泛 使 用 ， 因 此 我 们 也 采用 这 个 称谓 。 如 果 定 义 一 个 q 阶 移动 平均 算 子 为 


0 (B) =1-01B-02B 汪 …-0.B94 
则 移动 平均 模型 可 以 简 记 为 
yO0(B), 
考虑 到 ”=yt-Hh， 表 明 该 模型 中 包含 了 q+2 个 未 知 参数 h、61、62、…、6p、 o?e， 其 中 61、92、.…、 6p 称 为 移动 平均 参数 ， 在 实际 应 用 中 必须 由 数据 来 估计 。 


(1) 自 相 关 消 数 


根据 =st-91st-1-92et-2-.…-6ast-q， 以 及 st 为 白 噪声 的 事实 ，MA (q) 的 自 相关 函数 为 


YE=E{ (sr01st1-02st2-…-0qsted) 〈sekglstk1-02stk2-…-0dqsckq) } 
=-0LEle ty]+O010r+1Ele rt."+00 0 [ed 
因为 st 是 不 相关 的 ， 并 且 对 于 k>q， 有 yk=0， 因 此 该 过 程 的 方差 为 


yo=(1+0 + +*…+0)os 


Mi = 1 


主要 k > ( 


可 以 看 到 ， 对 于 MA (q) 的 过 程 ， 当 延迟 阶 数 超过 q 时 ， 过 程 的 自 相 关 遂 数 为 0。 换 言 之 ， 移 动 平均 过 程 的 自 相关 函数 具有 超出 q 步 延迟 的 截 尾 性 。 
(2) 移动 平均 参数 的 表示 


由 上 述 自 相关 遂 数 的 推导 结果 可 知 ， 若 p1、p2、.…、Pq 为 已 知 ， 则 由 q 个 方程 就 可 以 解 出 参数 01、 …、6q。 然 而 ， 与 自 回 归 过 程 线性 的 Yule-Wallker 方 程 不 同 ， 这 里 的 q 个 方程 为 非 线性 方程 。 除 
了 q=1 的 简单 情形 ， 其 余 情形 只 能 用 迭代 法 求解 。 


(3) 偏 自 相关 函数 

对 于 一 阶 的 MA 过 程 ， 由 Yull-Walker 方 程 及 ' 并且 pk=0，k>1， 通 过 计算 可 以 得 出 "二 过 可 见 偏 自 相关 函数 被 衰减 指数 所 控制 。 
对 于 高 阶 的 MA 过 程 ， 偏 自 相关 遂 数 的 严格 表达 式 是 很 复杂 的 ， 但 是 可 以 证 明 偏 自 相关 遂 数 被 衰减 指数 和 (或 ) 衰减 正弦 波 控制 。 
(4) 目 回 归 过 程 和 移动 平均 过 程 的 对 偶 性 


平稳 的 AR 过 程 具 有 在 某 阶 之 后 全 为 零 的 偏 自 相 关 阔 数 ， 但 是 它 的 自 相 关 阔 数 是 无 限 延 伸 的 ， 且 由 衰减 指数 或 衰减 正弦 波 混 合生 成 ; 相反 ， 有 限 的 MA 过 程 具有 在 某 阶 之 后 全 为 零 的 自 相关 立 数 ， 但 由 于 
它 等 价 于 一 个 无 限 的 AR 过 程 ， 因 此 其 偏 自 相关 函数 将 无 限 延 伸 ， 且 被 衰减 指数 和 (或 ) 衰减 正弦 波 控制 。 


4. 自 回归 移动 平均 模型 


为 了 在 实际 拟 合 时 间 序列 时 有 更 大 的 灵活 性 ， 有 时 会 将 自 回 归 项 和 移动 平均 项 一 起 纳入 模型 ， 这 就 引出 了 自 回 归 移动 平均 模型 (ARMA) 。 


J eS 中 ， yy J 9, Vest “ * 十 9, Vivte—O 6 1-0,8; 2 一 一 5 


或 者 
$ (B)y=0(B)s, 
也 称 为 (p，q) 阶 的 自 回 归 移 动 平均 模型 ， 简 记 为 ARMA (p，9) 模型 ,模型 中 有 p+9q+2 个 未 知 参数 UJ、qp1、gP2、.…、gPp、81、92、.…、9p、 02。， 需要 根据 实际 数据 来 估计 。 在 实际 中 ， 为 了 描述 
一 个 实际 发 生 的 平稳 时 间 序 列 ， 往 往 能 够 得 到 自 回 归 、 移 动 平 均 ， 或 者 二 者 混合 的 模型 ， 其 中 p 和 q 的 值 不 大 于 2， 或 者 常常 是 小 于 2 的 。 
表 17.1 是 针对 自 回 归 、 移 动 平 均 及 混合 ARMA 过 程 性 质 的 总 


表 17.1 自 回 归 、 移 动 平均 及 混合 ARMA 过 程 性 质 


自 回 归 过 程 移动 平均 过 程 混合 ARMA 过 程 
TREE BD 
模型 由 过 去 的 s 表示 YY 二 中 !(B)E， y=0(B)s, ?二 由:(B)50(B) 


平稳 性 条 件 中 (3) 的 根 在 单位 圆 外 | ”无条件 平 稳 中 (3) 的 根 在 单位 圆 外 
四 无 限 项 (指数 衰减 和 无 限 项 (g-p 步 后 指数 惨 减 和 
白 相关 基数 下 指 多 惨 沽 不 有 限 项 CE 限 项 (gq-p 步 后 指数 亡 减 不 


(或 ) 正弦 波 孜 减 ) (或 ) 正 艾 波 萌 减 ) 
4 除 后 鹤 尾 拖 插 
无 限 项 (指数 衰减 和 (或 )| 无 限 项 (gqg-p 步 后 指数 衰减 和 


偏 目 相关 卫 数 有 限 项 
IE 弦 ; 2 儿 减 ) (或 ) 正弦 波 辟 减 ) 


p 步 后 截 尾 拖 尾 





5. 非 平稳 模型 
在 工商 业 中 ， 常 会 遇 到 许多 序列 (如 股票 价格 ) 都 表现 出 了 非 平稳 的 特性 ， 比 如 说 不 围绕 一 个 固定 的 均值 变化 。 然 而 这 样 的 序列 可 能 会 表现 出 某 种 相同 的 特征 ， 具 体 来 说 ， 虽 然 这 些 波动 的 总 体 水 平 在 


不 同时 间 里 其 表现 是 不 同 的 ， 但 是 在 允许 水 平 有 差异 的 前 提 下 ， 这 些 序列 的 其 他 广义 特征 可 能 是 相似 的 。 有 些 情况 下 ， 某 种 序列 在 经 过 一 阶 或 者 多 阶 向 后 差分 后 可 以 转换 为 平稳 时 间 序 列 。 令 wt= (1- 
B) dyt=vdyt， 若 wt 是 平稳 的 ， 则 有 


9 (B) w=0 (B) s， 


也 就 是 说 ， 描 述 具有 该 种 同 质 非 平稳 特征 的 模型 可 以 表示 为 


9 (B) (1-B) dyi=6 (B) a 
在 实际 应 用 中 ，d 通 常 是 0 或 1， 或 者 最 多 是 2。 当 d=0 时 与 平稳 特征 相 一 致 。 

这 样 ， 由 p(B) (1-B) dyt=6 (B) st 所 定义 的 过 程 为 描述 平稳 或 非 平稳 的 时 间 序列 提供 了 一 个 有 效 的 模型 ， 称 为 (p，d，q) 阶 自 回归 求 和 移动 平均 过 程 (ARIMA) ， 该 过 程 定义 为 

Qt 二 Wi1OL1 二 92ot2 十 十 ppQtp 十 sr01et1-02st2- -0ustd 

其 中 ，wt=ydyt。 如 果 d=0 时 ， 用 ytirh 代 蔡 wt-i，i=0，.…，p， 则 该 模型 包括 了 平稳 的 混合 模型 (ARMA 模 型 ) ; 而 纯 自 回归 模型 (AR 模型 ) 和 纯 移动 平均 模型 (MA 模型 ) 就 是 该 模型 的 特例 。 
在 自 回归 求 和 移动 平均 过 程 (ARIMA) 这 个 名 词 中 包含 了 “ 求 和 ”一 词 ， 原 因 是 : 由 wt= (1-B) dyt， 可 得 yt= ( (1-B) -1) dwt， 由 Tylor 展 式 可 知 (1-B) -1=1+B+B?+...， 则 

(1-B) -oj= (1-B) “lot (1-B) owt (1-B) Tost (1-B) -io +…= (1+2B+3B2 寺 …) or 


对 于 高 阶 dq 也 可 以 定义 同样 的 计算 。 因 此 ， 一 般 的 自 回 归 求 和 移动 平均 过 程 (ARIMA) 就 是 对 平稳 过 程 wt 作 d 次 求 和 而 生成 的 。 后 面 将 描述 如 何 使 用 上 述 模型 的 一 个 具体 形式 .来 表达 非 平 稳 时 间 序 列 。 


17.1.4 SAs 时 间 序 列 分 析 软 件 简介 


在 SAS 系 统 中 ， 有 四 大 模块 可 以 用 来 进行 时 间 序 列 分 析 。 
* BASE SAS: 利用 第 一 篇 中 介绍 的 基本 编程 语言 和 时 间 序 列 的 理论 知识 进行 建 模 和 预测 。 
SAS/STAT: 运用 最 小 二 来 法 对 历史 数据 或 者 残 差 进 行 回归 。 
" SAS/ETS: 是 SAS 系 统 中 专门 进行 时 间 序 列 预测 的 模块 ， 提 供 了 多 种 PROC 步 ， 对 带 有 了 时间 标识 的 序列 进行 处 理 、 建 模 和 预测 。 本 章 主 要 介绍 运用 该 模块 中 的 PROC 步 进行 建 模 。 


. SAS Forecast Server: 是 一 种 具有 可 扩展 性 的 大 型 自动 化 预测 解决 方案 ， 上 有 具有 友好 的 图 形 用 户 界 面 ， 如 图 17.6 所 示 。 在 较 少 人 工 干预 的 情况 下 ， 可 快速 自动 生成 大 量 高 质量 的 统计 模型 ， 能 自动 选择 最 


合适 的 统计 模型 ， 并 生成 预测 。 


17.2 平稳 时 间 序 列 分 析 
平稳 时 间 序 列 是 时 间 序 列 中 一 类 重要 的 时 间 序 列 ， 对 于 该 时 间 序 列 ， 有 一 套 非常 成 熟 的 平稳 序列 建 模 方法 ， 这 也 是 本 节 中 将 重点 介绍 的 部 分 。 对 于 非 平稳 序列 ， 可 以 通过 差分 、 提 取 确 定性 成 分 等 方 
法 ， 将 其 转化 成 平稳 序列 ， 再 运用 平稳 序列 建 模 方法 进行 建 模 。 


在 实际 操作 中 ， 由 于 样本 数据 的 匮乏 ， 要 根据 样本 数据 要 找到 生成 样本 的 真实 随机 过 程 基本 是 不 太 可 能 的 。 理 论 研 究 表明 ， 任 意 平稳 时 间 序 列 都 可 以 由 ARMA 过 程 (包括 AR 过 程 、MAj 过 程 和 混合 过 
程 ) 近似 表示 ， 并 且 通 过 ARMA 模 型 可 以 对 序列 作出 比较 精确 的 预测 。 


Box-Jenkins 建 模 方法 是 关于 如 何 分 析 平 稳 时 间 序 列 、 建 立 ARMA 模 型 以 及 进行 预测 的 方法 ， 它 也 是 目前 比较 流行 的 一 种 建 模 方法 。 建 模 过 程 基本 可 以 分 为 如 下 3 步 。 
1) 模型 识别 : 考察 时 间 序列 特征 ， 进 行 模型 识别 ， 辨 识 出 有 价值 且 参 数 简约 的 模型 子 类 ， 如 AR (3) 、ARMA (2，2) 等 。 


2) 参数 估计 和 诊断 检验 : 对 已 辨识 出 的 模型 子 类 进行 数据 拟 合 和 参数 估计 ， 人 在 恰当 的 条 件 下 ， 有 效 地 运用 样本 数据 对 模型 参数 进行 推断 和 估计 ， 并 对 模型 进行 诊断 检验 ， 通 过 检验 拟 合 模型 与 数据 的 关 
系 来 揭示 模型 的 不 当 之 处 ， 从 而 对 模型 进行 改进 。 模 型 识别 、 参 数 估 计 和 诊断 检验 是 不 断 循 环 和 改进 的 过 程 ， 通 过 该 过 程 来 找到 合适 的 模型 表达 式 。 
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图 17.6 SAS Forecast Setvet 的 用 户 界 面 
3) 预测 : 利用 拟 合 好 的 时 间 序 列 模型 来 推断 序列 其 他 的 统计 性 质 或 预测 序列 将 来 的 发 展 。 


通常 要 求 ， 用 来 建 模 的 观测 值 的 个 数 至 少 有 50 个 ， 最 好 是 100 个 或 更 多 。 当 无 法 获得 50 个 或 者 更 多 的 历史 观测 时 ， 例 如 进行 某 种 新 产品 的 需求 预测 时 ， 可 以 使 用 经 验 或 者 类 似 产品 的 历史 需求 信息 得 到 
一 个 初始 模型 ， 当 获得 更 多 的 数据 时 ， 这 个 模型 可 以 随时 被 更 新 。 


在 进行 建 模 时 ， 应 使 用 包含 尽 可 能 少 的 参数 的 模型 ， 以 获得 数学 上 的 充分 表达 。 这 就 是 参数 使 用 的 简约 性 原则 ， 该 原则 在 实际 应 用 中 是 非常 重要 的 。 如 果 模 型 不 恰当 ， 或 参数 使 用 元 余 ， 将 会 使 预测 出 
现 严 重 问 题 。 因 此 ， 在 选择 模型 时 ， 谨 慎 和 反复 试探 是 非常 必要 的 ， 这 也 是 一 个 不 断 改 进 、 修 正 错误 和 试验 的 过 程 。 


广义 的 Box-Jenkins 建 模 方法 也 可 以 建立 带 趋势 和 季节 因素 的 时 间 序 列 ， 并 且 可 以 根据 需要 在 模型 中 添加 其 他 输入 变量 。 
17.2.1 数据 准备 


在 实际 应 用 中 ， 我 们 得 到 的 数据 往往 是 一 些 交 易 数 据 ， 没 有 固定 的 时 间 间 隔 ， 这 些 数据 很 多 情况 下 不 能 直接 用 来 进行 时 间 序列 分 析 ， 需 要 先 对 数据 进行 预 处 理 ， 例 如 将 交易 数据 转化 成 固定 间隔 的 时 间 
序列 ， 进 行 数据 转换 ， 补 全 缺失 数据 ， 检 查 是 否 有 异常 值 等 。 


数据 的 预 处 理 是 时 间 序列 分 析 的 重要 组 成 部 分 ， 会 直接 影响 预测 的 准确 度 。 因 此 ， 在 进行 股票 每 天 交易 量 预测 的 时 候 ， 首 先 需要 将 股票 交易 数据 转化 成 按 天 交易 的 数据 ; 在 对 汽车 的 月 度 需求 进行 预测 
时 ， 需 要 将 汽车 按 天 的 销售 量 累 积 到 按 月 计算 的 销售 量 ， 等 等 。 这 些 处 理 都 是 为 了 保证 预测 足够 准确 。 


TIMESERIES 过 程 和 EXPAND 过 程 主要 用 来 整理 时 间 序 列 数据 资料 ， 比 如 说 将 短 时 间 间 隔 数据 (每 天 的 交易 数量 ) 汇总 成 长 时 间 间 隔 数据 (月 度 交 易 数 量 ) ， 或 者 将 长 时 间 间 隔 数据 (季度 销售 总 量 ) 
拆 分 成 短 时 间 间 隔 数据 (月 度 销 售 总 量 ) ， 或 者 自 定义 时 间 间 隔 生成 新 的 时 间 序 列 。 


运用 TIMESERIES 过 程 将 短 时 间 间 隔 数据 转换 成 长 时 间 间 隔 数据 的 基本 语法 如 下 : 














PROC TIMESERIES DATA= 数 据 集 0UT= 输 出 数据 集 选 项 ; 
BY 分 类 变量 ; 
ID 时 间 变 量 INTERVAL= 时 间 间 隔 
ACCUMULATE= 累 积 方法 
SETMISSING= 缺 失 值 处 理 方法 
START= 起 始 时 间 END= 终 止 时 间 ; 
VAR 分 析 变 量 1 < 分 析 变 量 2 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/...>; 
















































































其 中 : 
. ID 语句 指定 时 间 变 量 ， 时 间 变 量 是 指 包 含 时 间 数 据 的 变量 。 在 使 用 TIMESERIES 过 程 之 前 ， 数 据 集 必须 按照 分 类 变量 和 时 间 变 量 排序 。 
. 选项 INTERVAL= 指 定 输出 数据 集 的 时 间 间 隔 ， 取 值 可 以 为 DAY、WEEK、MONTH、QUARTER、YEAR 等 SAS 日 期 间隔 取 值 或 者 SAS 时 间 间 隔 取 值 。 


. 选项 ACCUMULATE= 指 定 了 累积 方法 ， 取 值 有 TOTAL、AVERAGE、MEDIAN、FIRST、LAST 等 。 


. 选项 SETMISSING= 指 定 缺失 值 处 理 方法 ， 取 值 有 MISSING、0、AVERAGE、MEDIAN、FIRST、LAST 等 ，SETMISSING= 的 默认 值 是 MISSING。 


“ 选项 START= 和 选项 END= 指 定时 间 变 量 的 起 始 时 间 和 终止 时 间 ， 过 程 步 只 处 理 和 输出 落 在 这 一 时 间 段 的 观测 。 
通过 TIMESERIES 过 程 得 到 的 输出 数据 集 ， 是 固定 时 间 间 隔 的 序列 ， 可 以 被 用 来 进行 时 间 序 列 分 析 和 建 模 。 
例 17.1: 数据 集 ex.stockdaily 中 包含 了 某 上 市 公司 从 1995 年 9 月 到 2011 年 7 月 之 间 每 天 股票 的 价格 和 交易 量 信息 ， 具 体 如 下 
Date: 交易 日 期 
Open: 开盘 价 
High : 最 高 价 
Low: 最 低 价 
Close: 收盘 价 
Volume: 交易 量 
LogVolome: 交易 量 的 Log 形 式 ，LogVolume=Log (Volume) 
Year: 交易 年 份 
Month : 交易 月 份 


部 分 数据 如 图 17.7 所 示 。 


ET WIETTABLE: Ez. Stockdails (Daily Stock Frice) 


Date Dpen High Low se | Volume 
135EP1995 


16.62 

16,.4 
16.34 
16.01 
15.73 
15.73 

15.5 
15.75 

16.2 
16.34 
16.15 
15.79 

15.5 
15.64 
16.03 
15.95 


1 
2 |135EP1995 
3 |205EP1995 
4 |215EP1995 
5 |225EP1995 
255EP1995 
a6oEP1995 
| 27SEP1995 
285EP1395 
295EP1995 
020CT1995 
030CT1995 
13 |040CT1995 
050CT1395 
D6DCET1995 
|090CT1995 


mm | 


图 17.7 数据 集 ex.stockdaily 部 分 内 容 


oo 


2321700 
9. 志 00 
60729300 
405400 
2363800 
2616600 
4644700 
E30500 
4390200 
了 4 扣 A00 
338U0 
3777bD00 
2523000 
2468500 
1695 700 
1787900 


LogVolume 
14.657910234 
14.892865161 
15.16951#4138 
15.040972965 
14.901982787 
14.777386323 
15.351237343 
15.948711807 
15.294985342 
15.021092068 

14. FDA" 
15.144599445 
14, 740959228 
14.719N21237 
14.343606193 
14, 396552305 


该 数据 是 按 天 统计 的 股票 信息 数据 ， 现 在 要 用 TIMESERIES 过 程 ， 将 1995 年 10 月 1 日 到 2011 年 2 月 28 日 之 间 按 天 统计 的 数据 转换 成 月 度数 据 。 代 码 如 下 : 


proc timeseries data=ex.stockdaily out=ex.stockmonthly; 





id date interval=month 

accumulate=average 

setmissing=missing 

start="01O0ct1995"d end="28Feb2011"g; 
var volume; 

rn; 











ml sh | | sk | ss 
GG i i | a EB | ES | EB ED ED 


在 上 述 程序 中 ， 需 要 汇总 的 变量 是 volume，INTERVAL=MONTH 指 定 输出 数据 集中 数据 的 时 间 间 隔 为 月 ， 每 天 交易 量 的 平均 值 将 作为 汇总 后 的 数据 人 存储 在 变量 volume 中 。 在 原始 数据 集 ex.stockdaily 
， 如 果 在 1995 年 10 月 1 日 到 2011 年 2 月 28 日 间 ， 缺 少 某 个 月 份 的 数据 ， 那 么 在 输出 数据 集中 ， 将 自动 生成 一 条 该 月 份 的 数据 ， 并 且 volume 的 取 值 为 缺失 ( 取 值 由 选项 SETMISSING=MISSING 指 定 ) 。 


转换 后 的 数据 如 图 17.8 所 示 。 


ET Li 


olurme 
DLT1995 了 3PBB50 
Uw133 站 15Uoe .36 
DEL1395 J Ua 
JaN1996 a Eha00 
FE 日 133b 4105.j25 
MAHTI9db C29557.1429 
SPR19396 bl20561.304 
RaY13356 2rd4458b. 3636 
JUN1996 A451#0 
JUL139b 2659537 Zi2r 
AUGB1Iddb Jobd9re Farid 
oFEP1I96 hd5 











图 17.8 ”数据 集 ex.stockmonthly 部 分 内 容 


在 数据 准备 的 过 程 中 ， 另 一 个 重要 的 过 程 步 是 EXPAND 过 程 。EXPAND 过 程 用 来 把 时 间 序 列 从 一 种 采样 间隔 或 频率 转换 为 男 外 一 种 ， 并 且 补 揪 这 一 时 间 序 列 中 的 缺失 值 。 使 用 EXPAND 过 程 可 以 把 高 频 
率 间隔 的 时 间 序 列 数 据 转 换 为 较 低频 率 间 隔 ， 反 之 亦 然 。 例 如 ， 可 以 把 以 季度 为 频率 间隔 的 时 间 序 列 处 理 (如 汇总 、 取 均值 或 期 末 值 等 ) 为 以 年 度 为 频率 间隔 的 时 间 序 列 ， 也 可 以 在 一 个 以 年 度 为 频率 间隔 
的 序列 中 补 插 季 度 估计 ， 得 到 以 季度 为 频率 间隔 的 时 间 序 列 。EXPAND 过 程 的 基本 语法 如 下 : 





PROC EXPAND DATA= 数 据 集 0UT= 输 出 数据 集 FROM= 输 入 数据 集 时 间 间 阳 TO= 输 出 数据 集 时 间 间 隔 
< 其 他 选项 >; 

BY 分 类 变量 ; 

变量 1 < 分 析 变 量 2 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/OEBPS/Text/...>/ 选 项 ; 

ID 时 间 变 量 ; 





















































RUN; 


其 中 : 
.和 TIMESERIES 过 程 一 样 ， 在 使 用 EXPAND 过 程 时 ， 输 入 数据 集 必须 已 经 按照 分 类 变量 和 时 间 变 量 排 过 序 。 


. 在 PROC EXPAND 语 名 中， 选项 FROM= 指 定 输入 数据 集 时 间 间 隔 ， 选 项 TO= 指 定 输出 数据 集 时 间 间 隔 ， 黑 认 情 况 下 ， 选 项 TO= 的 取 值 为 输入 数据 集 的 时 间 间 隔 。 当 选项 FROM=DAY ，TO=DAY 时 ， 
如 果 输 入 数据 集中 》 缺少 某 一 天 的 数据 ， 那 么 在 输出 数据 集中 5 将 自 动 生 成 一 条 新 的 数据 ， 并 且 在 日 志 中 》 会 生成 一 条 警告 信息 。 

. 选项 METHOD= 可 以 指定 插值 方法 ， 取 值 有 SPLINE、JOIN、STEP、AGGREGATE 和 NONE， 当 取 值 为 NONE 时 ， 表 示 不 进行 插值 。PROC EXPAND 语 和 句 和 CONVERT 语 句 中 都 可 以 使 用 选项 
METHOD， 但 是 CONVERT 语 名 中 选项 METHOD 的 优先 级 更 高 。 


例 17.2: ex.stockdaily 数 据 集中 的 股票 数据 是 按 天 收集 的 ， 但 是 因为 一 些 原 因 ， 使 得 该 数据 集中 并 没有 包含 所 有 交易 日 的 数据 ， 也 就 是 说， 某 些 交易 日 的 数据 被 遗漏 掉 了 。 要 使 得 分 析 的 序列 是 固定 时 
间 间 隔 的 ， 可 以 运用 EXPAND 过 程 对 该 序列 进行 预 处 理 。 


示例 代码 如 下 : 





proc expand data=ex.stockdaily 
out=work.stockdaily 





from=weekday 
align=beginning 
method=none; 
id date; 
convert volume; 
convert logvolume; 
run; 








部 分 日 志 信 息 如 图 17.9 所 示 。 


WARNING: 1 observations have been omitted before observation number 49 1n 
data set EX.STOCKDAILY according to the FROM=WEEKDAY specification 


and the ID varlable values. The current ID 15 Date=24NOV1995, the 
previous is Date=22NOU1995 . 





图 17.9” 例 17.2 日 志 中 警告 信息 


该 日 志 显 示 在 输入 数据 集中 ，1995 年 11 月 22 日 和 11 月 24 日 之 间 缺 少 一 条 数据 ， 在 输出 数据 集中 ， 将 自动 生成 一 条 新 的 观测 ，Date 的 取 值 为 1995 年 11 月 23 日 。 由 于 选项 METHOD=NONE， 因 此 ， 新 
观测 的 Volume 和 Logvolume 的 取 值 为 缺失 ， 如 图 17.10 所 示 。 


NOTE: Further warnings for gaps in data will not be printed. 


NDTE = 六 Wj 导 集 WORK .STOCKDAILY 有 4138 个 观测 个 要 量 . 
NOTE: “PROCEDURE EXPAND” 所 用 时 间 【 总 处 理 时 间 ) : 


8-61 利 
0.01 





图 17.10” 例 17.2 日 志 信 息 
原始 数据 集 ex.stockdaily 中 包含 4000 条 数据 ， 经 过 EXPAND 过 程 处 理 后 ， 增 加 了 部 分 数据 ， 变 为 了 4130 条 数据 。 
EXPAND 过 程 的 用 法 非常 灵活 ， 还 可 以 将 某 种 固定 间隔 的 时 间 序 列 转换 成 其 他 任意 指定 时 间 间 隔 的 数据 (查看 SAS 帮 助 文档 中 选项 FACTOR 的 用 法 ) ， 并 且 可 通过 指定 的 方法 补 插 时 间 序 列 中 的 缺失 
值 。 


17.2.2 平稳 性 和 日 噪声 检验 


1 平稳 性 的 图 检验 


拿 到 一 个 时 间 序 列 之 后 ， 首 先 判断 它 的 平稳 性 。 判 断 一 个 序列 是 否 平稳 有 两 种 检验 方法 ， 一 种 是 图 检验 方法 ， 即 根据 时 序 图 和 自 相关 系数 图 显示 的 特征 做 出 判断 ; 一 种 是 单位 根 检验 法 ， 即 构造 检验 统 
计量 进行 假设 检验 的 方法 。 


图 检验 方法 是 一 种 操作 简便 、 运 用 广泛 的 平稳 性 判别 方法 ， 但 是 判别 结论 容易 带 有 一 定 的 主观 性 ， 所 以 最 好 能 辅 以 统计 检验 方法 进行 判断 。 


根据 平稳 时 间 序 列 均值 和 方差 为 常数 的 性 质 可 知 ， 平 稳 时 间 序 列 的 时 序 图 应 该 显示 出 该 序列 始终 在 一 个 常数 值 附近 随机 波动 ， 而 县 波动 的 范围 有 明显 的 相似 性 特点 。 如 果 时 序 图 显示 出 该 序列 有 明显 的 
趋势 性 或 者 周期 性 ， 那 么 它 通常 不 是 平稳 序列 。 根 据 这 个 性 质 ， 很 多 非 平稳 序列 通过 查看 时 序 图 就 可 以 被 识别 出 来 。 


我 们 知道 ， 自 相关 函数 是 用 来 描述 时 间 序 列 中 不 同 观测 之 间 的 线性 相关 程度 的 ， 可 以 证 明 平 稳 时 间 序 列 通常 都 具有 短期 相关 性 ， 具 体 描述 就 是 随 着 延迟 期 数 k 的 增加 ,平稳 序列 的 自 相关 系数 ?会 很 快 襄 
减 为 0。 反 之 ， 非 平稳 序列 的 自 相关 系数 衰减 为 0 的 速度 通常 比较 慢 。 这 就 是 我 们 利用 自 相关 图 进行 平稳 性 判断 的 标准 。 自 相关 图 ， 也 称 ACF 图 ， 全 称 为 Autocorrelation Function Plot， 横 坐标 表示 延迟 
期 数 (也 称 滞后 期 数 ) ， 纵 坐标 表示 自 相关 系数 的 取 值 ， 图 中 每 一 个 柱子 都 代表 了 某 延 迟 期 数 对 应 的 自 相关 系数 的 取 值 。 观 察 以 下 两 组 序列 的 时 序 图 和 ACF 图 (如 图 17.11 和 图 17.12 所 示 ) ， 可 以 明显 看 
出 ,图 17.11 中 的 序列 随 着 时 间 的 变化 有 明显 的 上 升 趋势 ， 是 非 平稳 的 ， 因 此 自 相关 系数 衰减 的 速度 很 慢 ， 而 图 17.12 中 平稳 序列 的 自 相关 系数 则 衰减 很 快 。 
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图 17.11 ” 非 平稳 时 间 序 列 序 列 图 和 ACF 图 
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图 17.12 平稳 时 间 序 列 序 列 图 和 ACF 图 


另 一 种 常见 的 平稳 性 检验 方法 是 单位 根 检验 (Unit Root Test) ， 在 后 面 介 绍 趋势 时 间 序 列 时 将 重点 讲解 。 
2. 白 噪声 检验 


并 不 是 所 有 的 平稳 序列 都 值得 建立 模型 ， 只 有 那些 序列 值 之 间 具 有 相互 依赖 性 ， 历 史 数据 对 未 来 的 发 展 有 一 定 影响 的 序列 ， 才 值得 建 模 ， 建 模 是 为 了 预测 序列 未 来 的 发 展 。 如 果 序 列 值 彼此 之 间 没 有 任 
何 相关 性 ， 如 日 噪声 序列 ， 过 去 的 行为 对 将 来 的 发 展 没有 丝毫 影响 ， 从 统计 分 析 的 角度 而 言 ， 是 没有 任何 分 析 建 模 的 价值 的 。 


为 了 判断 某 个 序列 是 否 值得 继续 分 析 建 模 ， 需 要 对 其 进行 白 噪声 检验 。 由 白 噪 声 序 列 的 定义 知 ， 对 于 任意 k 期 延迟 ， 都 有 自 相关 系数 pk=0，k> 0。 需 要 指出 的 是 ， 这 是 理想 的 状况 ， 实 际 上 ， 由 于 样本 
序列 的 有 限 性 ， 会 导致 白 噪声 序列 的 样本 自 相 关系 数 * 不 会 绝对 为 0。 


随机 产生 一 个 服从 标准 正 态 分 布 的 白 噪声 序列 ， 然 后 观察 它 的 时 序 图 和 自 相 关系 数 图 ， 如 图 17.13 和 图 17.14 所 示 。 
在 图 17.14 中 可 以 看 到 ， 这 个 白 噪 声 序 列 的 大 部 分 样本 自 相 关系 数 都 不 等 于 0， 但 是 这 些 自 相 关系 数 都 非常 小 ， 都 在 0 值 附近 以 一 个 很 小 的 幅度 做 随机 波动 。 


Barlett 让 明 ， 如 果 一 个 时 间 序列 是 白 噪声 序列 ， 样 本 长 度 为 n， 那 么 该 序列 的 非 0 期 延迟 期 数 的 样本 自 相关 系数 将 近似 服从 均值 为 0、 方 差 为 样本 长 度 倒数 的 正 态 分 布 ， 即 : 
人 AN » r ] 
Pi 近似 服从 于 NN (0 ' ); Yk0 


既然 样本 自 相关 系数 的 分 布 具有 这 样 的 性 质 ， 那 么 就 可 以 构造 统计 量 从 统计 意义 上 来 检验 时 间 序 列 是 否 为 白 噪声 序列 了 。 
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图 17.13 ”随机 产生 的 服从 标准 正 态 分 布 的 白 嗓 声 序列 的 时 序 图 
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图 17.14 ”和 白 噪声 序列 的 自 相关 系数 图 


这 里 ， 我 们 不 去 单独 地 考虑 每 一 个 自 相 关系 数 pk， 而 是 将 前 m 个 自 相 关系 数 作为 一 个 整体 来 考虑 ， 通 过 它们 构造 一 项 指标 来 判断 序列 是 否 是 白 噪声 序列 。 由 于 序列 取 值 之 间 的 变异 性 是 必然 的 ， 而 相关 
性 是 偶然 的 ， 因 此 一 定 要 有 足够 的 证 据 才 能 证 明 序列 之 间 存 在 相关 性 。 若 进行 白 噪声 检验 的 原 假 设 和 备 择 假 设 分 别 为 : 


RE 为 有 学 声 序列 
HH: 对 于 Ww>1，34<W， 且 k 去 0， 使 得 Qk 垃 0， 即 序列 不 是 白 噪声 序列 


为 了 检验 这 个 原 假 设 ，Box 和 Ljung 推 出 了 LB (Ljung-Box) 统计 量 : 


本 和 和 
LB = n(n+2) >》 加 到 


A \n-i 


其 中 ，n 为 样本 长 度 ，m 为 指定 延迟 期 数 ，?: 是 样本 自 相关 系数 。 如 果 序 列 是 白 噪 声 序列 ， 根 据 正 态 分 布 和 卡 方 分 布 的 关系 ,可 以 证 明 LB 统 计量 近似 服从 自由 度 为 m 的 卡 方 分 布 ， 有 反之， 如 果 序 列 不 是 白 
噪声 序列 ， 则 LB 的 取 值 会 陡 增 。 若 给 定 显著 性 水 平 kg， 可 以 计算 出 卡 方 分 布 在 1-a 处 的 分 位 数 X1-a， 如 果 由 样本 序列 计算 出 来 的 LB 统计 量 大 于 X1-a， 则 说 明 有 充足 的 理由 拒绝 原 假设 ， 也 就 是 说 ，3**' 使 得 


pk0， 即 该 时 间 序 列 不 是 白 噪声 序列 。 


白 噪 声 检 验 不 仅 可 以 用 在 对 原始 时 间 序列 的 检验 中 ， 也 可 以 用 在 对 残 差 序列 的 检验 中 。 如 果 模 型 已 经 从 序列 中 提取 出 了 所 有 的 有 用 信息 ， 那 么 残 差 序 列 应 该 就 是 一 个 白 噪 声 序列 ， 否 则 的 话 ， 说 明 序 列 
中 某 种 规律 性 的 信息 没有 被 模型 表示 出 来 ， 也 就 是 说 ， 模 型 是 拟 合 不 足 的 。 


ARIMA 过 程 


SAS 中 的 ARIMA 过 程 是 根据 Box-Jenkins 建 模 方法 开发 的 一 个 过 程 步 ， 专 门 用 来 建立 ARIMA 模 型 (包含 AR 模型 、MA 模 型 、 混 合 ARMA 模 型 和 ARIMA 模 型 等 ) 。 基 本 语法 如 下 : 





PROC ARIMA DATA= 数 据 集 选 项 ; 
DENTIFY VAR= 分 析 变 量 < 选 项 >; 























ESTIMATE < 选项 >; 
OUTLIER < 选项 >; 
FORECAST OUT= 输出 数据 集 < 选项 >; 

RUN; 






































其 中 : 
“ IDENTIEFY 语 多 用 来 指定 需要 分 析 的 时 间 序 列 ， 并 计算 和 输出 多 种 统计 量 及 相关 关系 图 供用 户 进行 序列 分 析 ， 识 别 合适 的 模型 。 
ESTIMATE 语 句 用 来 建立 模型 ， 为 前 面 IDENTIFY 语 句 中 指定 的 响应 变量 拟 合 ARMA 模 型 或 转移 函数 模型 ， 计 算 其 参数 的 估计 值 ， 并 输出 诊断 信息 ， 从 而 判断 模型 是 否 不 足 。 
" OUTLIER 语 句 用 来 检测 ESTIMATE 语 句 中 建立 的 模型 没有 能 够 处 理 的 异常 值 ， 在 使 用 该 语句 前 ， 必 须 先 使 用 ESTIMATE 语 和 句 。 
. FORECAST 语 名 根据 ESTIMATE 语 名 中 计算 的 参数 估计 ， 生 成 时 间 序 列 的 预测 值 。 
ARIMA 过 程 实现 步骤 和 前 面 介绍 的 Box-Jenkins 建 模 方法 的 步骤 非常 类 似 ， 同 样 是 由 模型 识别 、 估 计 、 诊 断 到 预测 。 在 ARIMA 过 程 中 有 诸多 的 选项 可 实现 不 同 的 分 析 要 求 ， 接 下 来 结合 例子 进行 介绍 


例 17.3: 在 例 17.2 中 ， 已 经 运用 EXPAND 过 程 将 原 序 列 转换 成 了 等 间隔 的 时 间 序 列 ， 接 下 来 ， 运 用 ARIMA 过 程 考察 ex.stockdaily 中 的 股票 交易 量 序列 ( 仪 考察 从 2010 年 1 月 1 日 开始 的 数据 ) ， 并 对 序列 
进行 平稳 性 检验 和 白 噪 声 检验 。 


示例 代码 如 下 : 





proc arima data=work. stockdaily; 
/*identify the series initially*/ 
identify var=volume nlag=12; 
where date>="01Jan2010"g; 
hablo 

quit; 


























在 上 述 代码 中 ，IDENTIFY 语 句 使 用 了 选项 NLAG=， 该 选项 指定 一 个 数字 告诉 系统 在 计算 样本 自 相关 遂 数 、 样 本 偏 自 相关 遂 数 和 样本 逆 自 相关 水 数 时 所 需 考虑 的 最 大 延迟 期 数 。 为 获得 一 个 
ARIMA (P，d，9q) 模型 的 初步 估计 ，NLAG= 的 取 值 最 小 必须 为 p+d+q。 数 据 集中 观测 的 个 数 必须 大 于 等 于 NLAG= 的 取 值 。NLAG= 的 默认 值 为 24 和 观测 个 数 的 1/4 这 两 个 数字 中 较 小 的 一 个 。 


图 17.15 中 展示 的 表 是 ARIMA 过 程 输出 的 第 一 部 分 : 序列 的 基本 统计 量 和 白 噪 声 检验 结果 
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图 17.15” 例 17.3 序 列 基 本 信息 和 和 白 噪声 检验 


由 于 程序 中 指定 了 NLAG=12， 故 白 噪 声 检验 的 最 大 延迟 期 数 也 为 12。 白 噪声 的 自 相关 检查 报表 输出 了 m=6 和 m=12 的 检验 结果 (回归 “ 白 噪声 检验 ”中 的 m 的 取 值 ) ， 需 要 指出 的 一 点 是 ，m 的 取 值 


为 6 的 信 矢 
思考 一 下 ， 本 例 中 ， 在 进行 白 噪声 的 自 相 关 性 检验 时 ， 只 检验 了 至 多 延迟 12 期 的 LB 统计 量 是 否 合适 ? 是 否 需 要 进行 全 部 400 期 的 延迟 检验 (从 2010 年 1 月 1 日 开始 总 共有 400 个 观测 点 ) ? 


事实 上 ， 因 为 平稳 序列 通常 具有 短期 相关 性 ， 如 果 观 测 值 之 间 存 在 显著 的 相关 关系 ,通常 只 存在 于 延迟 期 数 比较 短 的 观测 值 之 间 。 所 以 ， 如 果 一 个 平稳 序列 短期 延迟 的 观测 值 之 间 都 不 存在 显著 的 相关 
关系 ， 通 党 长 期 延迟 之 间 就 更 不 会 存在 显著 的 相关 关系 了 。 另 一 方面 ， 如 果 一 个 平稳 序列 显示 出 显著 的 短期 相关 性 ， 那 么 该 序列 就 一 定 不 是 白 噪 声 序列 。 因 此 ， 这 里 只 检验 至 多 延迟 12 期 的 LB 统 计量 已 经 
够 。 


ARIMA 过 程 的 第 二 部 分 输出 为 时 序 图 、 样 本 自 相关 系数 图 (ACF) 、 样 本 偏 自 相关 系数 图 (PACF) 和 样本 逆 自 相关 系数 图 (IACF) ， 如 图 17.16 所 示 。PACF 图 和 IACF 图 是 相应 的 以 延迟 期 数 为 横 坐 
标 、 样 本 偏 自 相关 系数 和 样本 逆 自 相关 系数 为 纵 坐 标的 柱状 图 。 


“Volume” 的 趋势 和 相关 分 析 
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图 17.16 ” 例 17.3 中 序列 的 趋势 和 相关 分 析 
ACF 图 、PACF 图 和 IACF 图 在 模型 识别 和 参数 估计 中 具有 重要 作用 ， 在 下 一 节 中 将 详细 介绍 。 


根据 时 序 图 和 ACF 图 ， 即 可 进行 大 致 的 平稳 性 检验 ， 从 时 序 图 中 ， 基 本 可 以 判断 观测 值 通常 是 以 固定 的 波动 幅度 围绕 在 一 个 固定 水 平 波动 的 ; 根据 ACF 图 的 判断 准则 ， 样 本 自 相关 系数 在 2 阶 延迟 之 后 很 
快 衰减 向 0 (虽然 在 10 阶 延迟 附近 出 现 振荡 ) ， 基 本 可 以 判断 该 序列 是 一 个 平稳 时 间 序 列 。 


综合 前 面 的 白 噪声 检验 结果 ， 说 明 该 序列 不 仅 可 以 视 为 平稳 序列 ， 而 且 还 蕴含 着 值得 提取 的 相关 信息 
17.2.3 ”模型 识别 

接 下 来 根据 样本 数据 对 ARMA 模 型 的 阶 数 p 和 q 进 行 识别 。 我 们 的 主要 工具 是 样本 自 相关 函数 、 样 本 偏 自 相关 函数 和 样本 逆 自 相关 函数 ， 它 们 不 仅 有 助 于 推测 模型 的 形式 ， 而 且 可 以 推导 出 参数 的 近似 估 
i 
1. 运 用 自 相关 函数 和 偏 自 相关 函数 的 性 质 识别 

先 来 回忆 一 下 在 前 面 章节 中 曾 讨论 过 的 内 容 : 有 关 移 动 平 均 、 自 回归 和 混合 过 程 的 理论 ， 以 及 自 相关 和 偏 自 相关 函数 的 特征 行为 。 

1) p 阶 自 回归 过 程 的 自 相关 函数 是 拖 尾 的 ， 而 它 的 偏 自 相关 函数 在 p 阶 延迟 之 后 是 截 尾 的 。 

2) q 阶 移动 平均 过 程 的 自 相关 函数 在 延迟 q 阶 之 后 是 截 尾 的 ， 而 它 的 偏 自 相关 遂 数 是 拖 尾 的 。 


3) 若 自 相关 函数 和 偏 自 相关 遂 数 均 拖 尾 ， 则 表明 是 混合 过 程 。 进 一 步 ， 对 于 一 个 包含 p 阶 自 回 归 和 q 阶 移动 平均 的 温 合 过 程 来 说 ， 其 自 相关 消 数 在 q-p 阶 延迟 之 后 是 混合 的 指数 和 正弦 波 豪 减 。 与 此 相应 
的 , 瘟 合 过 程 的 偏 自 相关 消 数 在 q-p 阶 延迟 之 后 被 混合 的 指数 和 正弦 波 豪 减 所 控制 |。 


但 在 实践 中 ， 依 据 这 些 性 质 为 模型 定 阶 是 有 一 定 困难 的 。 因 为 由 于 样本 的 随机 性 ， 样 本 的 相关 系数 不 会 呈现 出 理论 上 的 完美 截 尾 情况 ， 比 如 ， 本 应 截 尾 的 样本 自 相关 系数 或 偏 自 相 关系 数 仍然 会 呈现 出 
小 值 振 荡 的 情况 。 这 种 现象 导致 我 们 必须 判断 ， 什 么 情况 下 该 看 作 相关 系数 是 截 尾 的 ， 什 么 情况 下 该 看 作 相 关系 数 是 在 延迟 若干 阶 之 后 正常 衰减 到 0 值 附 近 做 拖 尾 波动 的 呢 ? 


对 于 较 大 的 延迟 ， 假 设 在 q 阶 移动 平均 过 程 下 ， 我 们 用 样本 估计 值 代 蔡 理论 自 相关 系数 ， 可 以 根据 Bartlett 公 式 计 算出 样本 自 相关 系数 的 标准 差 : 
/A2 ~ 112 
| + 2(p1 + p> + +p, |], k>wq 


对 于 偏 自 相关 遂 数 ， 和 前 面 讨论 的 一 样 ， 在 过 程 为 p 阶 自 回归 的 假设 中 ，p+1 阶 或 更 高 阶 偏 自 相关 系数 的 估计 值 的 标准 差 是 


对 于 适当 大 小 的 n~， 假 设 理 论 自 相 关系 数 pk 为 0%， 它 的 估计 值 * 服 从 近似 正 态 分 布 ， 对 于 偏 自 相关 系数 有 类 似 的 结论 。 


这 些 事实 可 以 提供 一 种 非 正式 的 标准 ， 用 来 指示 当 延 迟 超 出 某 特定 值 后 理论 自 相关 函数 和 偏 自 相关 函数 是 否 实质 上 为 0。 
正 态 分 布 有 如 下 性 质 : 


如果 样本 自 相 关系 数 或 偏 自 相 关系 数 在 最 初 的 K 阶 的 取 值 明显 大 于 2 倍 标 准 差 范围 ， 而 在 k 阶 之 后 几乎 95% 的 样本 相关 系数 都 落 在 2 倍 标 准 差 的 范围 以 内 ， 形 成 了 小 值 波动 ; 而 且 样 本 自 相关 系数 由 较 大 
值 衰减 到 2 倍 标准 差 范围 内 的 过 程 非常 突然 ， 这 时 ， 通 常 视 为 相关 系数 截 尾 ， 阶 数 为 k。 


. 如 果 样 本 自 相 关系 数 或 偏 自 相关 系数 在 最 初 的 K 阶 的 取 值 明显 大 于 2 倍 标准 差 范围 ， 而 K 阶 之 后 有 超出 5% 的 样本 相关 系数 落 入 2 倍 标准 差 范围 之 外 ; 或 者 是 由 显著 非 零 的 相关 系数 衰减 为 小 值 波动 的 过 程 
比较 缓慢 或 者 非常 连续 ， 这 时 ， 通 常 视 为 相关 系数 不 截 尾 。 


人 G 注 意 ”由 于 自 相关 函数 的 估计 之 间 可 能 高 度 相 关 ， 因 此 ， 不 可 能 指望 自 相关 函数 的 估计 和 值 与 理论 值 十 分 贴近 。 特 别 是 ， 当 理论 自 相关 函数 已 经 衰减 了 ， 而 自 相 关 元 数 的 估计 还 可 能 出 现 相 当 大 的 、 明 
显 的 波动 和 趋势 ， 这 种 相悖 的 现象 在 理论 中 是 没有 依据 的 。 在 运用 自 相 关 郊 数 的 估计 作为 识别 依据 时 ， 通 常 能 对 大 致 的 特征 有 相当 的 把 握 ， 至 于 那些 更 精细 的 特征 ， 它 们 可 能 未 必 代 表 真 实 的 结果 ， 因 此 ， 
可 能 需要 引入 两 个 或 更 多 的 模型 ， 以 便 在 建 模 的 估计 和 检验 诊断 阶段 作 进一步 的 研究 。 


除了 样本 自 相 关系 数 和 样本 偏 自 相关 系数 之 外 ， 样 本 逆 自 相关 系数 也 可 以 用 来 帮助 模型 定 阶 。 样 本 逆 自 相关 系数 和 样本 偏 自 相关 系数 的 估计 值 符号 相反 ， 当 样本 偏 自 相 关系 数 的 截 尾 或 者 拖 尾 性 质 难以 
判断 时 ， 可 以 参考 样本 逆 自 相关 系数 的 截 尾 或 者 拖 尾 性 质 来 作出 判断 。 


一 阶 、 二 阶 AR 过 程 和 MA 过 程 以 及 简单 的 混合 ARMA 过 程 都 是 特别 重要 的 ， 接 下 来 通过 例子 具体 查看 这 类 过 程 的 相关 系数 的 特征 。 
例 17.4: 通过 例子 分 析 一 阶 、 二 阶 AR 过 程 和 MA 过 程 以 及 混合 ARMA 过 程 的 时 序 图 、ACF 图 、PACF 图 和 IACF 图 特征 。 


示例 代码 如 下 : 





data work.armaExamples; 
array Y(8); 
array LagY (8); 
array Lag2Y (8); 



































/*---— (1) Initialize all 8 series to mean 0 ----*/ 
do i=1 to 8; 
LagY (i)=0; 
Lag2Y (i)=0; 
end; 
LagError=0} 
Lag2Error=0; 
/*---—- (2) Generate as labeled ----*/ 


do t=-100 to 1600; 
ate = intnx('day', '3ldec2006'd,t); 









































D 
error = normal (1234567) ， 
Y(1) = 0.9*LagY (1) + error; * AR(1) 
Y(2) = 0.1*LagY (2) + 0.72*Lag2Y(2) + error; * AR (2) 
Y(3) = 1.8*cos (2*constant ('pi')/9)*LagY (3) - 0.81*Lag2Y (3) + error; * AR(2) 
complex roots; 
Y(4) = error = (0.9*LagErrory * MA(1) ， 
Y(5) = error - 0.1*LagError -0.72*Lag2Error; * MA(2) ， 
Y(6) = error - 1.8*cos (2*constant ('pi')/9)*LagError + 0.81*Lag2Error; * 


MA(2) complex roots; 
Y(7) = 0.9*LagY (7) + error + 0.8*LagError; * ARMA(1,1); 
Y(8) = error; * white noise; 
if t>0 then output; 

Lag2Error=LagError; 









































Lag2Y (1 )=LagY (i); 
LagY (i)=Y (i); 








end; 
engd; 
keep t date Yl1-Y8; 
UN 


上 述 程序 生成 了 8 个 时 间 序 列 Y1，Y2，...，Y8。Y1 是 AR (1) 过 程 生 成 的 时 间 序列 ;Y2 和 Y3 分 别 是 由 不 同 的 AR (2) 过 程 生 成 的 时 间 序 列 ; Y4 是 MA (1) 过 程 生 成 的 时 间 序 列 ; Y5 和 Y6 分 别 是 由 不 同 
的 MA (2) 过 程 生 成 的 时 间 序 列 ; Y7 是 ARMA (1，1) 过 程 生成 的 时 间 序 列 ;Y8 是 白 噪 声 序列 。 接 下 来 运用 ARIMAj 过 程 输出 各 个 时 间 序 列 的 时 序 图 、ACF 图 、PACF 图 和 IACF 图 。 代 码 如 下 : 





proc arima data=work. armaE Examples plots=series (corr); 







































































identify var=Yl1 nlag=12; 
identify var=Y2 nlag=12; 
identify var=Y3 nlag=12; 
identify var=Y4 nlag=12; 
identify var=Y5 nlag=12; 
identify var=Y6 nlag=12; 
identify var=Y7 nlag=12; 
identify var=Y8 nlag=12; 

run; 

quit; 


输出 内 容 如 图 17.17 至 图 17.24 所 示 (其 中 省 略 了 序列 的 基本 信息 和 白 噪 声 检验 结果 ) 。 


在 图 17.17 中 ，Y1 是 AR (1) 过 程 生成 的 时 间 序 列 ， 样 本 自 相关 系数 是 指数 衰减 的 ，%*=qpK1， 从 生成 Y1 的 代码 中 可 以 看 出 p1=0.9。 在 PACF 和 IACF 图 中 ，1 阶 延迟 后 ， 偏 自 相关 系数 和 逆 自 相关 系数 都 
速 衰 减 为 小 值 波动 ， 且 落 在 了 2 倍 标准 差 范 围 内 ,符合 截 尾 特征 。 
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图 17.17 例 17.4 中 序列 Y1 的 趋势 和 相关 分 析 


如 图 17.18 所 示 ， 在 Y2 的 ACF 图 中 ， 自 相关 系数 呈现 出 类 似 指数 衰减 的 特征 ， 在 PACF 和 IACF 图 中 ，2 阶 延迟 后 ， 偏 自 相关 系数 和 逆 自 相关 系数 都 迅速 衰减 成 小 值 波 动 ， 具 有 截 尾 特征 ,符合 AR (2) 过 
程 的 相关 系数 的 特征 。 


“Y2” 的 趋势 和 柏 关 分 析 


















































图 17.18 例 17.4 中 序列 Y2 的 趋势 和 相关 分 析 


如 图 17.19 所 示 ，Y3 的 PACF 图 和 IACF 图 的 形状 和 特征 与 Y2 的 非常 类 似 ， 也 都 是 延迟 2 阶 之 后 截 尾 。 不 同 的 是 ， 在 Y3 的 ACF 图 中 ， 自 相关 函数 呈现 出 正弦 波 振 荡 衰 减 的 特征 ， 符 合 AR (2) 的 相关 系数 特 
征 。 








Y3 的 趋势 和 相关 分 析 
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图 17.19 ” 例 17.4 中 序列 Y3 的 趋势 和 相关 分 析 


在 图 17.20 中 ，Y4 是 MA (1) 过 程 生 成 的 时 间 序 列 ，ACF 图 呈现 出 明显 的 截 尾 特 征 ， 在 1 阶 延 迟 之 后 ， 自 相关 函数 迅速 衰减 成 小 值 波动 ， 在 PACF 和 IACF 图 中 ， 偏 自 相 关 函 数 和 逆 自 相关 冰 数 都 呈 指 数 衰 
减 ， 具 有 拖 尾 的 特征 。 











Y4 的 趋势 和 相关 分 析 
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图 17.20” 例 17.4 中 序列 Y4 的 趋势 和 相关 分 析 


在 图 17.21 中 ，Y5 是 MA (2) 过 程 生 成 的 时 间 序 列 ，ACF 图 中 ， 自 相关 遂 数 在 2 阶 延 迟 之 后 ， 迅 速 豪 减 到 小 值 波动 ， 具 有 截 尾 特 征 ; PACF 图 和 1IACF 图 都 具有 明显 的 拖 尾 特征 。 


Y5 的 趋势 和 相关 分 析 
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图 17.21 例 17.4 中 序列 Y5 的 趋势 和 相关 分 析 


在 图 17.22 中 ，Y6 是 另 一 种 MA (2) 过 程 生 成 的 时 间 序 列 ，ACF 图 中 ， 自 相关 函数 在 2 阶 延 迟 之 后 ， 迅 速 衰 减 成 小 值 波动 ， 具 有 截 尾 特 征 ;，PACF 和 IACF 图 中 ， 偏 自 相关 遂 数 和 逆 自 相关 水 数 呈 现 正 弦 波 
振荡 衰减 的 特征 。 


Y6 的 趋势 和 相关 分 析 
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图 17.22 ” 例 17.4 中 序列 Y6 的 趋势 和 相关 分 析 


在 图 17.23 中 ，Y7 的 ACF 图 、PACF 图 和 IACF 图 都 呈现 出 拖 尾 的 特征 ， 符 合 混合 模型 的 相关 系数 特征 ， 但 是 仅 通 过 相关 系数 很 难 判断 混合 模型 的 阶 数 。 


“Y7 ”的 趋势 和 相关 分 析 
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图 17.23 ” 例 17.4 中 序列 Y7 的 趋势 和 相关 分 析 


在 图 17.24 中 ，Y8 是 白 品 声 序列 ， 任 意 阶 延迟 的 自 相关 函数 、 偏 自 相关 遂 数 和 首 自 相关 逊 数 都 近似 为 0。 
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图 17.24 例 17.4 中 序列 Y8 的 趋 执 和 相关 分 析 


前 面 讨 论 了 如 何 用 TIMESERIES 过 程 进行 数据 的 预 处 理 ， 实 际 上 除了 对 数据 进行 预 处 理 以 外 ，TIMESERIES 过 程 也 可 以 用 来 生成 序列 的 ACF 图 、PACF 图 和 IACF 图 。 语 法 如 下 : 








PROC TIMESERIES DATA= 数 据 集 PRINT= (选项 ) PLOT= (选项 ) ; 
ID 时 间 变 量 INTERVAL= 时 间 间 隔 ， 
VAR 分 析 变量 1 < 分 析 变 量 2 ...>; 
RUN 





















































TIMESERIES 过 程 默认 不 输出 任何 图 形 或 报表 ， 因 此 在 PROC TIMESERIES 语 句 中 ， 需 要 使 用 选项 PRINT= 和 PLOT= 来 输出 指定 的 报表 或 图 形 。 当 同时 指定 多 个 图 形 或 报表 时 ， 需 要 将 它们 用 括号 括 起 
来 。 可 以 输出 的 图 形 包 括 SERIES、RESIDULE、HISTOGRAM、CORR、ACF、PACF、IACF、WN ( 白 噪声 概率 ) 、TCC (trend-cycle component) 、SC (seasonal component) 等 ; 可 以 输出 的 报表 
包括 DECOMP、SEASONS、DESCSTATS、SUMMARY、TRENDS 等 。 


例 17.5: 利用 TIMESERIES 过 程 作 出 数据 集 work.armaExamples 中 序列 Y1 的 相关 系数 图 。 


示例 代码 如 下 : 








~ 一 





proc timeseries data=work.armaExamples plots=(corr acf pacf iacf); 
Var Yl1; 
id date interval=day; 








run; 


输出 内 容 如 图 17.25 和 图 17.26 所 示 (省 略 了 数据 集 的 基本 信息 输出 和 序列 的 基本 信息 输出 ) 。 


从 图 17.25 可 见 ， 在 相关 性 分 析 面 板 里 同时 输出 了 Y1 的 ACF 图 、PACF 图 和 IACF 图 ， 以 及 白 噪声 检验 图 。 前 三 者 和 ARIMA 过 程 输出 的 结果 一 样 ， 这 里 不 再 解释 。 
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图 17.25” 例 17.5 中 序列 Y1 的 相关 性 分 析 


白 噪 声 检验 图 以 延迟 期 数 为 横 坐 标 ， 以 Pr> 三 迟 期 数 对 应 的 统计 量 LB 的 取 值 | 的 概率 为 纵 坐标 ， 每 个 柱子 代表 每 个 延迟 期 数 对 应 的 概率 ， 概 率 越 小 柱子 越 高 ， 图 中 ， 任 意 延 迟 期 数 对 应 的 概率 都 小 于 
0.001， 代 表 着 应 拒绝 白 噪 声 检验 的 原 假 设 ， 即 Y1 不 是 白 噪 声 序 列 。 


接 下 来 ，TIMESERIES 过 程 还 分 别 输出 Y1 的 ACF 图 及 标准 化 ACF 图 、PACF 图 及 标准 化 PACF 图 、IACF 图 及 标准 化 IACF 图 。 这 里 仪 展示 ACF 图 和 标准 化 ACF 图 作为 示例 。 标 准 化 的 ACF 图 仍然 以 延迟 期 数 
作为 横 坐 标 ， 以 标准 化 之 后 的 ACF 作 为 纵 坐 标 ， 它 标 出 了 2 倍 标准 差 范围 和 1 倍 标准 差 范围 。 


2. 自 动 识别 


对 于 某 些 序列 ， 通 过 观察 自 相 关 函 数 、 偏 自 相关 函数 和 逆 自 相关 函数 图 ， 可 以 判断 出 AR 模型 或 MA 模型 的 阶 数 。 但 是 ， 有 的 时 候 ，ARMA 混 合 模型 可 能 可 以 生成 更 加 准确 的 预测 ， 并 且 一 个 合适 的 
ARMA (p，q) 模型 所 合 参 数 的 个 数 (P+q+2) 通常 要 小 于 纯粹 的 AR (p') 或 者 MA (q' ) 所 含 参数 的 个 数 。 但 是 ， 从 例 17.4 中 的 时 间 序 列 Y7 可 知 ，ARMA 混 合 模型 的 阶 数 通过 观察 相关 系数 图 是 很 难 判断 
的 。 


为 了 更 有 效 和 更 简便 地 辨识 ARMA 模 型 的 阶 数 ， 一 些 其 他 的 模式 辨识 方法 被 提出 并 应 用 ， 例 如 ESACF (延伸 自 相关 系数 法 ) 、SCAN (最 小 典型 相关 法 ) 和 MINIC 方 法 (最 小 信息 准则 法 ) 。 在 ARIMA 
过 程 中 ，IDENTIFY 语 句 中 的 选项 ESACF、MINIC 和 SCAN 就 是 分 别 对 应 的 这 3 种 模式 辨识 方法 的 。 其 使 用 语法 如 下 : 


PROC ARIMA DATA= 数 据 集 ; 
DENTIFY VAR= 分 析 变 量 
ESACF SCAN MINIC 

P= (Pmin:Pmax) QO=(Qmin:QOmax) PERROR= (PEmin:PEmax); 






































RUN; 





其 中 ， 选 项 P= 指定 了 AR 阶 数 范 围 ， 选 项 Q= 指 定 了 MA 阶 数 范围 ， 选 项 PERROR= 指 定 了 用 来 拟 合 残 差 序 列 的 AR 模 型 的 阶 数 范围 ， 默 认 情 况 下 ，PEmin 设 定 为 Pmax，PEmax 设 定 为 Pmax 和 和 Qmax 之 
和 。 选 项 ESACF、SCAN 和 MINIC 可 以 分 开 使 用 。 
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图 17.26 ” 例 17.5 中 序列 Y1 的 自 相 关 图 和 标准 化 自 相 关 图 


例 17.6: 分 别 用 选项 SACF、MINIC、SCAN 对 work.armaExamples 中 的 序列 Y7 进 行 模型 识别 。 
示例 代码 如 下 : 


/*---— ESACF ----—*/ 
proc arima data=work.armatxamples; 
identify Var=Y7 nlag=12 
esacf 
p=(0:12) gq=(0:12) perror=(3:12); 


























输出 的 报表 中 包含 了 ESCAF 方 法 的 广义 自 相 关系 数 和 矩阵 和 P 值 和 矩阵， 根据 这 两 个 矩阵 的 结果 ，SAs 接 着 输出 了 ESACF 方 法 识别 出 的 待 选 模型 ， 如 图 17.27 所 示 。 待 选 模型 包括 


ARMA (1, 1) ，ARMA (9, 8) 和 ARMA (10，8) 。 
这 里 需要 解释 一 下 p+d 的 意思 ,， 例 如， 当 p+d=2 时 ，p 和 d 的 取 值 有 3 种 情况 : 
:p=2, d=0 
| 


“ p=0,，d=2 
在 前 面 介绍 自 回归 求 和 移动 平均 过 程 (ARIMA) 时 曾 讲 到 ， 如 果 序 列 是 非 平稳 的 ， 可 先 通 过 差分 将 非 平稳 序列 转化 成 平稳 序列 ，d 则 表示 差分 的 阶 数 。 当 d> 0 时 ，ARMA 模 型 表示 非 平稳 模型 ， 所 以 上 
面 ESACF 方 法 也 提供 了 一 些 待 选 的 非 平 稳 模 型 。 

这 里 SAS 直 接 输出 了 根据 广义 自 相 关系 数 和 矩阵 和 P 值 矩阵 识别 出 的 待 选 模型 ， 如 果 读 者 对 如 何 从 这 些 和 矩阵 中 分 析 识别 待 选 模型 感 兴 趣 ， 可 以 查看 相关 参考 文献 ， 如 Tsay and Tiao (1984) ， 及 


Pena，Tiao and Tsay (2001) 。 


下 面 这 段 程序 的 输出 了 SCAN 方 法 的 典型 相关 估计 矩 阵 和 卡 方 统计 量 的 P 值 矩阵 。 


/*---- SCAN ----*/ 
proc arima data=work.armatxamples; 
identify Var=Y7 nlag=12 
scan 
p=(0:12) gq=(0:12) perror=(3:12); 

















run; 


基于 对 这 两 个 矩阵 的 分 析 ，SA3s 接 着 输出 了 SCAN 方 法 识别 出 的 模型 ， 如 图 17.28 所 示 。 待 选 模型 包括 ARMA (1，1) 、AR (8) 和 一 些 非 平稳 模型 。 注 意 , ARMA (1，1) 同样 是 ESACF 方 法 推荐 的 待 


选 模型 。 








图 17.27 例 17.6 中 ESACF 方 法 识别 出 的 待 选 模型 





图 17.28 ” 例 17.6 中 SCAN 方 法 识别 出 的 待 选 模型 


下 面 这 段 程 序 输 出 了 MINIC 方 法 的 信息 准则 和 矩阵 。 


/x---- MINIC ----—*/ 
proc arima dqata=work.armaExamp]les， 
identify Var=Y7 nlag=12 
minic 
p=(0:12) gq=(0:12) Perror=(3:12) ， 





该 信息 准则 和 矩阵 如 图 17.29 所 示 ， 并 且 它 基于 最 小 信息 准则 ， 给 出 了 推荐 的 模型 ARMA (1, 4) 。 











那么 ， 通 过 这 3 种 方法 识别 的 待 选 模型 有 ARMA (1，1) 、ARMA (9, 8) 、ARMA (10，8) 、AR (8) 、ARMA (1，4) ， 并 且 ESACF 方 法 和 SCAN 方 法 都 推荐 了 ARMA (1，1) 。 
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17.2.4 ”参数 估计 和 和 诊断 检验 


1. 参 数 估 计 


前 面 已 
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误差 序列 模型 : ARIB) 
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最 小 表 伯 : BIC(1.4) = 0.069108 


图 17.29” 例 17.6 中 MINIC 方 法 的 信息 准则 和 矩阵 


绍 了 任何 一 个 平稳 模型 都 可 以 用 ARMA 模 型 来 进行 逼近 ， 不 失 一 般 性 ， 我 们 把 ARMA 模 型 表示 成 如 下 形式 : 


参数 kh 是 序列 均值 ， 通 常 采 用 甜 估计 方法 ， 用 样本 均值 估计 总 体 均值 即 可 得 到 它 的 估计 值 : 


这 样 一 来 ， 原 来 p+q+2 个 待 估 参 数 就 减少 为 p+q+1 个 了 。 对 p+q+1 个 未 知 参数 的 估计 方法 有 3 种 : 和 矩 估 计 、 极 大 似 然 估计 和 最 小 二 乘 估计 。 


(1) 和 矩 估 计 


运用 p+q 个 样本 自 相关 系数 估计 总 体 自 相 关系 数 


从 中 解 出 的 参数 值 ”…%“、… “就 是 p1、.…、gqpp、981、 


用 序列 样本 方差 估计 序列 总 体 方差 : 


在 ARMA (p，q) 模型 两 边 同 时 求 方差 ， 整 理 得 到 o2: 和 2, 的 关系 ， 并 将 5 # 和 “5 作为 pg1、..….、qp、91、.…、9g 的 估计 代入 ， 
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通过 上 一 节 的 学 习 ， 已 经 知道 如 何 辨 识 阶 数 p 和 q 了 ， 接 下 来 ， 就 要 根据 实际 数据 来 拟 合 模型 中 的 p+q+2 个 未 知 参 数 J、gp1、gq2、.…、gp、61、92、.…、68p、o2g。 


即 得 到 白 噪 声 序 列 方差 的 和 矩 估 计 : 
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在 低 阶 ARMA 模 型 场合 下 ， 甜 估计 方法 具有 计算 量 小 ， 估 计 思 想 简 单 直观 ， 且 不 需要 假设 总 体 分 布 等 特点 。 但 是 这 种 估计 方法 中 只 用 到 了 p+q 个 样本 自 相 关系 数 ， 样 本 序列 中 的 其 他 信息 都 被 忽略 了 ， 
这 导致 它 的 估计 精度 较 差 。 可 见 ， 和 矩 估 计 方 法 是 一 种 比较 粗糙 的 估计 方法 ， 因 此 它 的 值 党 被 用 作 极 大 似 然 估计 和 最 小 二 乘 估计 和 迭代 计算 的 初始 值 。 


(2) 极 大 似 然 估计 
在 极 大 似 然 的 准则 下 ， 认 为 样本 来 自 使 得 该 样本 出 现 概 率 最 大 的 总 体 。 因 此 ， 未 知 参数 的 极 大 似 然 估 计 就 是 使 得 似 然 函 数 L (中 1，…， 中 p，61，…，6q) 达到 最 大 的 参数 值 ， 似 然 函数 为 : 
EE 
这 里 的 p (y1，y2，…，yn， 中 1，…， 中 p，61，…，6q) 是 联合 密度 函数 。 
使 用 极 大 似 然 估计 必须 已 知 总 体 的 分 布 钞 数 ， 而 在 时 间 序 列 分 析 中 ， 序 列 总 体 的 分 布 往往 是 未 知 的 ， 为 了 便于 计算 和 分 析 ， 通常 假设 序列 服从 多 元 正 态 分 布 。 
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对 数 似 然 函 数 为 : 


, , ， 2 ] L 
1(B) = -二 ln(27) -ln(o:) “Tl 1 





对 对 数 似 然 函 数 中 的 未 知 参数 和 和 “2: 求 偏 导 数 ， 就 可 以 得 到 似 然 方程 组 。 理 论 上 ， 求 解 似 然 方程 组 即 得 到 未 知 参数 的 极 大 似 然 估计 值 。 但 是 ， 由 于 7Q-17 和 In|lQ| 都 不 是 参数 的 显 式 表达 式 ， 因 而 似 然 方 
旦 组 实际 上 是 由 p+ q+1 个 超越 方程 构成 的 ， 通 常 需要 经 过 复杂 的 迭代 算法 才能 求 出 未 知 参数 的 极 大 似 然 估 计 值 。 

极 大 似 然 估计 法 充分 应 用 了 每 一 个 观测 值 所 提供 的 信息 ， 因 而 它 的 估计 精度 较 高 ， 同 时 还 具有 估计 的 一 致 性 、 渐 进 有 效 性 等 优良 的 统计 性 质 。 

(3) 最 小 二 乘 估计 


在 ARMA (p，q) 模型 中 ， 记 
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同 极 大 似 然 估 计 一 样 ， 由 于 Q (7) 不 是 "的 显 式 函 数 ， 未 知 参数 的 最 小 二 乘 估计 值 通常 也 得 借助 进 代 法 求 出 ， 并 且 由 于 充分 利用 了 序列 观测 值 的 信息 ， 因 而 最 小 二 乘 估计 的 精度 也 很 高 。 

在 实际 运用 中 ， 最 常用 的 是 条 件 最 小 二 乘 估计 法 ， 它 指定 过 去 未 观测 到 的 序列 值 等 于 样本 序列 的 均值 。 

虽然 极 大 似 然 估计 的 计算 量 要 大 于 最 小 二 乘 估计 ， 但 是 ， 研 究 表明 ， 极 大 似 然 估计 要 优 于 最 小 二 乘 估计 ， 特 别 是 对 样本 长 度 比较 小 的 时 间 序 列 。 

ARIMA 过 程 中 ， 考 虑 到 计算 量 等 因素 ， 默 认 的 参数 估计 方法 是 条 件 最 小 二 乘 估计 。 但 是 ， 通 过 长 期 的 实践 ，SAs 和 很 多 使 用 SAs 进 行 预测 的 专家 都 推荐 使 用 极 大 似 然 估计 作为 参数 估计 的 方法 。 
使 用 ARIMA 过 程 进行 参数 估计 的 语法 如 下 : 


PROC ARIMA DATA= 数 据 集 ; 
DENTIFY VAR= 分 析 变 量 NLAG=m; 
ESTIMATE P=PNUuM Q=Qnum ML; 












































其 中 ，ESTIMATE 语 句 是 ARIMA 过 程 中 进行 参数 估计 的 语句 ， 选 项 P 指 定 了 进行 自 回归 的 阶 数 ， 选 项 Q 指 定 了 移动 平均 的 阶 数 ， 选 项 ML 指定 了 使 用 极 大 似 然 估计 作为 参数 估计 的 方法 ， 也 可 以 用 
METHOD= ML 来 指定 使 用 极 大 似 然 估 计 法 ， 上 默认 METHOD=CLS， 表 示 使 用 条 件 最 小 二 乘 估 计 法 。 


例 17.7: 在 例 17.6 中 已 经 识别 出 了 一 组 待 选 模型 ， 下 面 根 据 参数 使 用 简约 性 原则 ， 对 待 选 模型 ARMA (1，1) 进行 参数 估计 。 


示例 代码 如 下 : 





proc arima data=work.armatxamples; 








identify var=Y7 nlag=12 noprint; 
estimate p=1 gq=1 ml; 
rummy 





输出 内 容 如 图 17.30 和 图 17.31 所 示 。 


在 图 17.30 中 ， 显 示 的 是 极 大 似 然 估计 (也 称 为 最 大 似 然 估计 ) 的 参数 估计 和 显著 性 报表 。 在 ARMA (1，1) 模型 中 ,均值 项 记 为 MU， 其 估计 值 为 -0.01166，qp1 对 应 着 “MA1，1”，91 对 应 
着 “AR1，1”， 很 明显 ,参数 “MA1，1” 和 “AR1，1” 都 是 显著 不 为 0 的 。 
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图 17.30 ” 例 17.7 中 ARMA (1，1) 模型 参数 估计 报表 


图 17.31 例 17.7 中 ARMA (1，1) 模型 信息 


由 ARMA 模 型 p(B) ?t=6 (B) st 可 知 ，ARMA (1，1) 模型 可 以 写 为 : 
(1-0.91309B) (Y7:+0.01166) = (1+0.80654B) si 
由 于 BY7t=Y7t_1， 可 得 : 
Y7,+0.01166=0.91309 〈Y7, 1+0.01166) +ert+0.80654e.1 
当 有 多 组 待 选 模型 时 ， 可 以 在 同一 ARIMA 过 程 中 多 次 使 用 ESTIMATE 语 句 进行 参数 估计 。 
2. 诊 断 检验 
模型 诊断 检验 过 程 将 通过 计算 多 个 诊断 统计 量 来 衡量 模型 的 拟 合 优 度 和 准确 度 ， 并 对 模型 的 残 差 序 列 进行 相关 性 检验 和 正 态 性 检验 。 


衡量 模型 拟 合 优 度 的 准则 一 般 有 以 下 两 个 。 


.AIC 准 则 : 即 Akaike's Information Crtitetion， 是 衡量 统计 模型 拟 合 优良 性 的 一 种 标准 ， 它 是 由 日 本 统计 学 家 杰 池 弘 次 创立 和 发 展 的 ， 又 称 赤 池 信 息 量 准则 。 


计 模 型 的 复杂 度 和 该 模型 拟 合 数据 的 优良 性 。AIC 准 则 鼓励 数据 拟 合 的 优良 性 ,但 是 也 表示 应 尽量 避免 出 现 过 度 拟 合 (Overfitting) 的 情况 。 
. SBC 准 则 : 即 Schwarz's Bayesian Information Criterion。 和 AIC 准 则 类 似 , 但 在 计算 公式 上 面 骆 有 差别 。 
当 有 多 个 待 选 模型 时 ， 应 优先 考虑 AIC 值 或 者 SBC 值 小 的 模型 。 这 两 个 准则 在 很 多 进行 模型 拟 合 的 过 程 步 中 都 会 用 到 。 
衡量 模型 准确 度 的 统计 量 有 以 下 几 种 。 


当 序 列 值 有 可 能 为 0 时 ， 推 荐 使 用 MAPE。MAPE 在 





它 建立 在 灶 的 概念 基础 之 上 ， 可 以 权衡 所 售 


DR 方 ， 也 记 为 R: R=1- >》(7 -7)2 (7 -7 
1=|] 


t=l 





DD MSE， 即 Mean Square Error， 称 为 均 方 误差 : MSE ; > (%, 一 作 ) ， 其 中 此 为 参 
no kil 
数 个 数 . 
口 RMSE， 即 Root Mean Square Error ， 称 为 均 方 根 误差 : RMSE= Vv MSE， 
口 MAPE， 即 Mean Absolute Percent Eror， 称 为 平均 绝对 误差 率 : MAPE = 一 2, |y, -|/yo 
/ tr=l | 
口 MAE， 即 Mean Absolute Error， 称 为 平均 绝对 误差 : MAE = 二 |y, -7 | 
1 -1 | 
口 SMAPE， 即 Symmetric Mean Absolute Percent Error， 称 为 对 称 平均 绝对 误差 率 : 


] n _ 
SMAPE = 一 i 
n ba Js | L (Y, y ) | 
DMAE/Mean = 站 


商业 预测 和 分 析 中 应 用 得 比较 多 。 当 有 多 个 待 选 模 型 时 ， 可 以 通过 计算 MAPE 和 RMSE 等 统计 量 来 衡量 模型 的 准确 性 。 


在 例 17.7 中 ， 在 参数 估计 报表 后 面 输出 了 ARMA (1，1) 模型 的 拟 合 优 度 报表 ， 如 图 17.32 所 示 。 





图 17.32” 例 17.7 中 ARMA (1，1) 模型 拟 合 优 度 报表 


接着 ， 又 输出 了 残 差 序 列 的 诊断 检验 结果 ， 如 图 17.33 和 图 17.34 所 示 。 残 差 序列 的 ACF 图 、PACF 图 、1IACF 图 和 白 噪声 序列 Y8 的 对 应 相关 系数 图 非常 类 似 ， 并 且 白 噪声 概率 都 大 于 0.05， 表 示 残 差 序 列 
值 之 间 不 存在 依赖 关系 。 残 差 序 列 的 直方 图 和 Q-Q 图 也 表示 残 差 序列 服从 正 态 分 布 。 


白 噪 声 检验 不 仅 可 以 用 在 对 原始 时 间 序 列 的 检验 中 ， 也 可 以 用 在 对 残 差 序列 的 检验 中 。 如 果 模 型 已 经 从 序列 中 提取 出 了 所 有 的 有 用 信息 ， 那 么 残 差 序 列 应 该 是 一 个 白 噪声 序列 ， 否 则 ， 说 明 序 列 中 某 种 
规律 性 的 信息 没有 被 模型 表示 出 来 ， 也 就 是 说 ， 模 型 是 拟 合 不 足 的 。 


“Y7 ”的 残 差 相关 诊断 
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图 17.34 例 17.7 中 ARMA (1，1) 模型 残 差 正 态 诊断 


17.2.5 “预测 


在 参数 估计 和 诊断 检验 完成 后 ， 就 可 以 利用 拟 合 出 的 模型 进行 预测 了 。ARIMA 过 程 进行 预测 的 语句 为 FORECAST 语 句 ， 使 用 方法 如 下 : 


PROC ARIMA DATA= 数 据 集 选项 ; 
DENTIFY VAR= 分 析 变 量 NLAG=m; 
ESTIMATE E=Pnum CQ=onum ML; 





















































FORECAST LEAD=k ID= 时 间 变 量 INTERVAL= 时 间 间 隔 OUT= 输 出 数据 集 < 选 项 >， 
RUN 
































其 中 ，FORECAST 语 句 会 根据 ESTIMATE 语 句 中 使 用 的 模型 及 估计 出 的 参数 ， 生 成 时 间 序 列 的 预测 值 。 因 此 ， 在 ARIMA 过 程 中 ， 使 用 FORECAST 语 句 前 ， 一 定 要 先 使 用 ESTIMATE 语 句 。 选 项 LEAD 指 定 
需要 向 后 预测 多 少 个 时 间 点 ， 选 项 ID 和 INTERVAL 分 别 指定 时 间 变 量 和 时 间 间 隔 ， 选 项 OUT 指 定 输出 数据 集 。 


接 下 来 ， 通 过 一 个 完整 的 示例 来 介绍 对 一 个 平稳 序列 进行 分 析 的 全 过 程 。 

例 17.8: 数据 集 ex.weeklysales 中 包含 了 一 家 汽车 零 部 件 店 里 3 种 零件 从 2010 年 1 月 开始 到 2012 年 10 月 每 周 的 销售 量 。 数 据 集中 包含 4 个 变量 ， 具 体 如 下 。 
. OrderDate: 每 周 的 第 一 天 ， 代 表 一 周 。 

.Part1: 零 部 件 1 每 周 的 销量 。 

. Part2: 零 部 件 2 每 周 的 销量 。 

.Part3: 零 部 件 3 每 周 的 销量 。 

现在 希望 预测 这 3 种 零件 未 来 每 周 的 销量 。 


因为 数据 已 经 准备 完毕 ， 那 么 ， 根 据 时 间 序 列 分 析 的 流程 ， 我 们 可 以 跳 过 第 一 步 ， 直 接 来 查看 序列 是 否 平稳 ， 以 及 序列 中 是 否 包含 值得 提取 的 信息 ， 并 进行 模型 识别 。 示 例 代码 如 下 : 








proc arima data=ex.weeklysales plots=all plots (unpack); 
identify var=part1 nlag=14 














esacf minic scan 
p=(0:12) gq=(0:12) perror=(3:12); 





run; 





选项 UNPACK 指 定 系 统 输出 较 大 的 时 序 图 、ACF 图 、PACF 图 和 IACF 图 。 


从 时 序 图 来 看 ，part1 没 有 明显 的 趋势 或 者 季节 性 因素 ， 如 图 17.35 所 示 。 


"part1” 的 时 间 序 列 
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图 17.35 ” 例 17.8 中 序列 PART1 的 时 序 图 


ACF 图 中 ， 自 相关 系数 在 4 阶 延迟 期 后 即 衰弱 成 小 值 振荡 ， 与 MA (4) 的 特征 相符 ， 如 图 17.36 所 示 。 
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图 17.36” 例 17.8 中 序列 PART1 的 自 相 关 图 


PACF 图 和 IACF 图 具有 一 定 的 截 尾 特征 ， 如 图 17.37 所 示 。 在 2 阶 延迟 处 显著 不 为 0%， 和 AR (2) 的 特征 相符 。 结 合 ACF 图 的 特征 ,或 许 也 可 以 尝试 ARMA 混 合 模型 。 
IDENTIFY 语 句 也 同时 对 part1 的 序列 进行 了 白 噪声 检验 ， 输 出 内 容 如 图 17.38 所 示 。 


这 说 明 序列 的 观测 之 间 存 在 显著 的 依赖 关系 ， 可 以 建 模 。 


“part1 ”的 序列 偏 自 相 关 





图 17.37 例 17.8 中 序列 PART1 的 偏 自 相 关 图 和 逆 自 相关 图 








“part1” 的 序列 逆 自 相 美 








图 17-37 ( 续 ) 





接着 ， 由 于 使 用 选项 ESACF、3SCAN 和 MINIC 进 行 了 自动 模型 识别 ， 系 统 输出 了 广义 自 相关 系数 和 矩阵 及 相应 的 P 值 矩阵 、 典 型 相关 佑 计 德 阵 和 卡 方 统计 量 的 P 值 矩阵 ， 以 及 MINIC 方 法 的 信息 准则 矩阵 ， 
并 基于 对 这 些 和 矩阵 的 分 析 ， 提 供 了 待 选 模型 组 ， 如 图 17.39 所 示 。 





于 二 。 卡 方 | 自由 度 Pr> 卡 方 Ee 
G6| 110.16 5 “0001 | -0210 | 0697 | -0294 | 0.431 | 351 | 0346 
1 | 152.02 12 | “0001 | -0334 | 0304 | -0248 | 0.254 | 0.142 | 0.156 


图 17.38 ” 例 17.8 中 序列 PART1 的 白 骂 声 检验 


MINIC 方 法 推荐 的 模型 








1 | 之 | 605971 a 
O07| 492174| 9 
0 
2 


图 17.39” 例 17.8 中 序列 PART1 自动 识别 出 的 待 选 模 型 


MINIC 方 法 推荐 的 待 选 模 型 是 AR (2) 。 假 定 序列 是 平稳 的 ，SCAN 方 法 推荐 的 待 选 模型 为 AR (2) 和 ARMA (1，2) ，ESACF 方 法 推荐 的 待 选 模 型 有 ARMA (1，2) 、ARMA (4，2) 等 。 当 d>0 
时 ， 也 可 以 得 出 一 些 待 选 的 非 平稳 模型 。 结 合 相关 系数 图 ， 我 们 可 以 先 将 AR (2) 作为 part1 序 列 合适 的 待 选 模 型 。 


用 同样 的 方法 可 以 分 析 part2 序 列 和 part3 序 列 。 代 码 如 下 : 


proc arima date=ex.weeklysales plots=all plots (unpack); 
identify var=part2 nlags=14 
esacf minic scan 
p=(0:12) gq=(0:12) perror=(3:12); 
identify var=part3 nlags=14 
esacf minic scan 
p=(0:12) gq=(0:12) perror=(3:12); 





















































AR (1) 和 MA (3) 分 别 是 适合 part2 和 part3 序 列 的 待 选 模 型 。 


接 下 来 ， 进 行 参数 估计 和 诊断 检验 ， 查 看 用 这 些 模 型 是 否 足够 拟 合 这 些 序列 。 代 码 如 下 : 


proc arima data=ex.weeklysales; 
identify var=partl1 noprint; 











estimate p=2 outest=work.est partl; 
ET 


序列 part1 的 参数 估计 和 诊断 结果 如 图 17.40 和 图 17.41 所 示 。 
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图 17.40” 例 17.8 中 序列 PART1 的 AR (2) 模型 参数 估计 和 拟 合 优 度 报表 
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图 17.41 例 17.8 中 序列 PART1 的 AR (2) 模型 残 差 诊断 


从 图 中 展示 的 结果 可 以 看 到 ， 参 数 (AR1，1) 的 p 值 为 0.4870， 说 明 该 参数 不 是 显著 非 0; 并 且 残 差 序 列 在 5 阶 延 迟 时 ，p 值 小 于 0.05， 说 明 残 差 序列 不 能 通过 白 噪声 检验 ， 残 差 序列 中 仍然 有 信息 没有 
被 充分 提取 。 因 此 ，AR (2) 模型 对 于 序列 part1 是 不 合适 的 。 我 们 可 以 尝试 使 用 AR (3) 。 代 码 如 下 : 


proc arima data=ex.weeklysales; 

identify var=partl1 noprint; 

estimate p=3 ml outest=work.est partl; 
runy; 





参数 估计 和 诊断 检验 的 结果 如 图 17.42 和 图 17.43 所 示 。 
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图 17.42 ” 例 17.8 中 序列 PART1 的 AR (3) 模型 1 参数 估计 和 拟 合 优 度 报表 


“part1 ”的 残 差 相关 诊断 












图 17.43” 例 17.8 中 序列 PART1 的 AR (3) 模型 I 残 差 诊断 


此 时 ， 残 差 序列 基本 可 以 通过 白 噪声 检验 ， 但 是 参数 (AR1，1) 仍然 是 不 显著 的 。 因 此 ， 可 以 考虑 剔除 (AR1，1) ， 重 新 拟 合 模 型 。 代 码 如 下 : 


proc arima data=ex.weeklysales; 

identify var=partl1 noprint; 

estimate p=(2 3) ml outest=work.est partl; 
Ul; 





选项 p= (23) 表示 只 使 用 2 阶 和 3 阶 自 回 归 项 。 参 数 估计 如 图 17.44 所 示 。 
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图 17.44” 例 17.8 中 序列 PART1 的 AR (3) 模型 代 I 参数 估 计 和 拟 合 优 度 报表 


这 里 ， 参 数 (AR1，1) 表示 2 阶 自 回归 项 的 参数 ， (AR1，2) 表示 3 阶 自 回 归 项 的 参数 ， 并 且 这 些 参数 都 是 显著 不 为 0 的 。 


诊断 检验 的 输出 内 容 如 图 17.45 和 图 17.46 所 示 。 
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“part1 ”的 残 差 相关 诊断 





























图 17.45 ” 例 17.8 中 序列 PART1 的 AR (3) 模型 I[ 残 差 诊断 
这 说 明 使 用 只 包含 2 阶 自 回 归 项 和 3 阶 自 回 归 项 的 模型 来 拟 合 序列 part1 是 合适 的 。 
同样 的 方法 ， 可 以 用 来 拟 合 序列 part2 和 part3， 得 出 适合 part2 和 part3 的 模型 分 别 为 AR (1) 和 MA (4) 。 


接 下 来 ， 就 可 以 用 拟 合 好 的 模型 进行 预测 了 。 代 码 如 下 : 


proc arima data=ex.weeklysales plots (only)= (forecast (forecast)); 
identify var=partl noprint; 
estimate p=(2 3) ml outest=work.est partl noprint; 
forecast lead=8 id=date interval=week out=work.forecast partl; 
identify var=part2 noprint; 加 
estimate p=1 ml outest=work.est Part2 noprint; 
forecast lead=8 id=date interval=week out=work.forecast part2; 
identify var=part3 noprint; 和 
estimate qdq=4 outest=work.est part3 noprint; 


forecast lead=8 id=date interval=week out=work.forecast part3; 





























run; 


















part1 的 残 差 正 态 诊断 
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图 17.46 ” 例 17.8 中 序列 PART1 的 AR (3) 模型 I[ 残 差 正 态 诊断 
选项 OUT= 指 定 输出 的 预测 结果 分 别 被 保存 在 数据 集 work.est_part1、work.est_part2 和 work.est_part3 中 。 输 出 数据 集 work.forecast_part1 中 依次 保存 了 ID 变 量 (Date) 、 实 际 序列 观测 值 


预测 标准 误差 、95% 置 信 下 限 、95% 置 信 上 限 及 残 差 ， 如 图 17.47 所 示 。 
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系统 输出 如 图 17.48 至 图 17.50 所 示 的 预测 效果 图 。 
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数据 集 wotk.est_patt1 部 分 内 容 
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图 17.48 ”序列 PART1 的 AR (3) 模型 II 预测 效果 图 
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图 17.49 ”序列 PART2 的 AR (1) 模型 预测 效果 图 


可 以 看 到 ，part2 和 part3 的 预测 在 两 周 之 后 收敛 到 均值 。 


平稳 时 间 序列 是 时 间 序列 中 一 类 重要 的 序列 ， 可 以 说 ， 平 稳 时 间 序列 分 析 是 时 间 序 列 分 析 的 基础 。 在 本 节 中 ， 针 对 平稳 时 间 序 列 进行 了 介绍 ， 并 结合 实例 介绍 了 Box-Jenkins 时 间 序 列 分 析 的 基本 步骤 : 
数据 准备 一 平稳 性 和 白 噪声 检验 一 模型 识别 一 参数 估计 和 诊断 检验 一 预测 。 需 要 指出 的 是 ， 在 实际 操作 中 ， 很 多 序列 都 不 是 平稳 序列 ， 它 们 有 的 是 带 有 趋势 的 ， 有 的 是 带 有 季节 性 因素 的 ， 那 么 在 遇 到 这 种 
类 型 的 序列 时 ， 我 们 该 如 何 进行 分 析 呢 ”这 就 是 接 下 来 两 节 中 需要 研究 的 问题 。 


图 Part3" 新 测 
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图 17.50 “序列 PART3 的 MA (4) 模型 预测 效果 图 


17.3 ”趋势 时 间 序 列 分 析 


大 量 的 经 验证 据 表明 ， 经 济 分 析 中 涉及 的 大 多 数 时间 序 列 是 非 平 稳 的 ， 特 别 是 宏观 经 济 时 间 序列 ， 往 往 呈 现 出 随时 间 而 变化 的 趋势 。 非 平稳 序列 的 时 间 趋势 主要 有 两 种 ， 一 种 是 确定 性 时 间 趋 势 ， 一 种 
是 随机 性 时 间 趋势 。 
17.3.1 ”确定 性 时 间 趋 势 

所 谓 确定 性 时 间 趋势 ， 从 直观 意义 上 讲 ， 是 指 序列 的 趋势 不 是 变化 莫 测 的 ， 可 以 用 趋势 线 来 加 以 刻画 ， 用 统计 学 的 语言 来 描述 ， 就 是 指 序列 的 趋势 是 时 间 t 的 函数 。 

对 确定 性 趋势 的 时 间 序 列 进行 建 模 的 方法 为 趋势 拟 合法 ， 就 是 把 时 间作 为 自 变量 ， 相 应 的 序列 观察 值 作为 因 变 量 ， 建 立 序列 值 随时 间 变 化 的 回归 模型 的 方法 。 常 见 的 趋势 拟 合 函数 有 以 下 这 些 。 

(1) 线性 函数 

如 果 长 期 趋势 呈现 出 线性 特征 ， 那 么 可 以 用 线性 模型 来 拟 合 它 ， 模 型 可 以 具体 写 为 

y=BotBitter 

式 中 ，e{ 为 随机 波动 ，Tt=Bo+B1t 就 是 消除 随机 波动 的 影响 之 后 该 序列 的 长 期 趋势 。 

(2) 二 次 函数 

如 果 长 期 趋势 呈现 出 二 次 函数 的 特征 ， 那 么 可 以 用 二 次 函数 来 拟 合 它 ， 模 型 可 以 表示 成 : 

y=BotBitt Bat te 

(3) 对 数 函数 

如 果 长 期 趋势 呈现 出 对 数 函 数 的 特征 ， 模 型 可 以 表示 成 : 

y=BotBilog (t) te 


(4) 指数 函数 


= 
里 


失 值 ， 序 列 VAR1、VAR2 和 VAR3 都 为 缺失 ， 
proc arima data=work.testdata plots (only)= (forecast (f 

identify var=varl cross=( LINEAR ) ， 
estimate input=( LINEAR ) ml; 
orecast lead=10; 
identify var=var2 cross=( NEAR QUAD ) ; 
estimate input=( LINEAR QUAD ) ml; 
forecast lead=10; 
identify var=var3 cross=( LOG ); 
estimate input=( LOG ) ml; 
forecast lead=10; 


~ 


如 果 长 期 趋势 呈现 出 对 数 函 数 的 条 


yt=exp (Bot+Bit) 二 st 


寺 征 ， 模 型 可 以 表示 成 : 


在 ARIMA 过 程 中 ， 可 以 将 趋势 变量 作为 输入 变量 引入 模型 












































PROC ARIMA DATA= 数 据 集 ; 
DENTIFY VAR= 分 析 变 量 CROSSCORR= (输入 变量 1 (dl1, d2,...,d 
< 其 他 选项 >; 
PSTIMATE INPUT= (输入 变量 ) < 其 他 选项 >; 
FORECAST OUT= 输出 妆 据 集 < 其 他 选项 >; 








其 中 ， 在 IDENTIFY 语 句 中 ， 














如 果 同 时 在 ESTIMATE 语 句 用 选项 INPUT= 指 定 了 该 输入 变量 


例 17.9: 运用 ARIMA 过 程 进 


首先 ， 用 如 下 代码 生成 一 组 趋势 时 间 序 列 。 


data work.testdata; 
do t=1 to 50; 


end; 
run; 


























varl=4+3*t+D5*ranno 
Var2=4+3*t+2* 
Var3=4+3*1og (七 
output; 














行 确定 性 趋势 拟 合 


r(9999990); 































































































































































































)+rannor (9999991)，; 


ttto0U0*rarmor(999997) > 


， 进 行 确定 性 趋势 拟 合 


.. 输入 变量 m (d1, d2,..., dk)) 





选项 CROSSCORR= 在 括号 中 指定 和 分 析 变 量 相关 的 输入 变量 ，CROSSCORR 可 以 简写 为 CROSS。 如 果 在 输 
量 ， 系 统 将 使 用 差分 后 的 输入 变 


， 基 本 语法 如 下 : 


进行 模型 拟 合 和 估计 。 


， 因 此 ， 需 要 在 输入 数据 集 work.testdata 添 加 趋势 变量 。 代 码 如 下 : 


由 于 需要 使 用 ARIMA 过 程 进行 确定 性 趋势 拟 合 
data work.testdata; 
set work.testdata end=eof; 
attrib LINEAR label="Linear Term" 
_QUAD label="Quadratic Term" 
LOG label="Logarithm Term"; 
retain NEAR 0; 
LINEAR +1; 
~ QUAD = LINEAR * LINEAR :; 
LOG =log( LINEAR ); 
output; 
if eof then do future=1 to 10 
t+1; 
LINEAR +1; 
Varl=.; 
Var2=.， 
Var3=.， 
_QUAD = LINEAR * LINEAR ; 
_LOG =l0og( LINEAR ); 
output; 
end; 


里 ， 新 生成 了 变量 LINEAR 、 


_QUAD 和 LOG ， 这 些 变量 将 进 













































































run; 


















































等 待 ARIMA 过 程 根据 趋势 变量 进 


orecast)); 


通常 上 面 的 代码 ， 将 得 到 拟 合 效果 ， 如 图 17.51 至 图 17.53 所 示 。 


井 入 ARIMA 过 程 中 对 序列 进 
行 拟 合 和 预测 。 进 


行 拟 合 
行 拟 合 和 预测 的 代码 如 下 : 


。 我 们 也 注意 到 ， 在 输入 数据 集 的 尾部 增加 了 10 条 新 的 观测 ， 


变量 的 后 面 指定 了 差分 阶 数 ， 则 系统 将 


分 析 差 分 后 的 输入 变 


10 条 新 观测 中 ， 趋 势 变量 都 是 非 缺 


var” 预测 





0 10 20 30 d0 50 60 
观测 
D 实际 一 一 一 预测 值 口 95% 置信 限 一 一 一 开始 帮 步 预测 


图 17.51 例 17.9 中 序列 VAR1 的 预测 效果 图 


“var2” 了 项 测 
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0 实际 一 一 一 一 预测 慎 日 95% 置信 限 一 一 一 开始 多 步 预 测 





图 17.52 ” 例 17.9 中 序列 VAR2 的 预测 效果 图 


“var3” 预 测 
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0 实际 一 一 一 一 预 列 全 日 95% 置信 限 开始 多 步 预测 
图 17.53” 例 17.9 中 序列 VAR3 的 预测 效果 图 
运用 趋势 拟 合法 ， 可 以 将 时 间 序 列 中 的 确定 性 时 间 趋 势 提 取出 来 。 如 果 时 间 序 列 在 去 除 确定 性 时 间 趋 势 后 ， 变 成 平稳 时 间 序 列 ， 那 么 这 种 时 间 序 列 也 叫做 趋势 平稳 序列 。 对 于 趋势 平稳 序列 ， 我 们 可 以 
在 提取 出 确定 性 趋势 之 后 ， 运 用 Box-Jenkins 方 法 进一步 提取 观测 之 间 的 依赖 性 关系 。 
17.3.2 ”随机 时 间 趋 势 


男 一 种 时 间 趋 势 是 随机 时 间 趋 势 ， 直 观 地 讲 ， 就 是 时 间 序 列 的 趋势 无 法 用 一 条 单一 的 趋势 线 来 刻画 ， 在 不 同 的 时 期 ， 趋 势 线 是 变化 漂移 的 ， 也 就 是 说 ， 趋 势 是 随机 的 。 对 于 这 一 类 时 间 序 列 ， 其 趋势 线 
不 能 用 时 间 的 确定 性 函数 来 表示 了 ， 而 是 需要 通过 差分 方式 来 描述 。 

对 于 非 平稳 时 间 序 列 ， 从 理论 上 而 言 ， 足 够 多 次 的 差分 运算 可 以 充分 地 提取 原 序列 中 的 非 平稳 随机 趋势 。 许 多 非 平稳 序列 在 进行 差分 运算 后 会 显示 出 平稳 时 间 序 列 的 性 质 ， 因 此 ， 对 于 这 类 非 平稳 时 间 
序列 可 以 使 用 ARIMA 模 型 进行 拟 合 。 


ARIMA 模 型 可 以 表示 为 : 

中 (B) (1-B) dyt=6 (B) et 

记 为 ARIMA (p,，d，q)， 其 中 ,p(B) =1- 中 1B- 中 2B2-…- 中 bBP，6 (B) =1-61B-862B2-.….-6aB9。 若 记 wt= (1-B) dyt， 则 p(B) wt=6 (B) st。 由 此 可 见 ，ARIMA 模 型 的 实质 就 是 差分 运算 和 
ARMA 模 型 的 组 合 . 

特别 地 ， 当 d=0 时 ，ARIMA (p，d，q) 模型 实际 上 就 是 ARMA (p，q) 模型 。 

当 p=0 时 ，ARIMA (p，d，q) 模型 实际 上 就 是 IMA (d，q) 模型 。 

当 q=0 时 ，ARIMA (p，d，q) 模型 实际 上 就 是 ARI (p，d) 模型 。 


使 用 ARIMA 过 程 进行 随机 趋势 建 模 的 基本 语法 如 下 : 





PROC ARIMA DATA= 数 据 集 < 选项 >; 
DENTIFY VAR= 分 析 变 量 (dl d2 . dk) < 其 他 选项 >; 
ESTIMATE < 选项 >; 
FORECAST OUT= 输 出 数据 集 < 其 他 选项 >; 
RUN; 












































例如 : 
: “IDENTIFY VAR=VAR1 (1) ; ”表示 对 时 间 序 列 VAR1 进 行 一 阶 差分 ， 然 后 分 析 差 分 后 新 的 时 间 序 列 。 


“IDENTIFY VAR=VAR1 (1，1) ; ”表示 对 时 间 序 列 VAR1 进 行 二 阶 差分 ， 然 后 进行 分 析 ， 分 析 的 时 间 序 列 为 (yy i) - (yy ) =y-2y 1+y oo 


IDENTIFY VAR=VAR1 (2) ; ”表示 对 时 间 序 列 VAR1 进 行 两 步 差 分 ， 然 后 进行 分 析 ， 分 析 的 实际 序列 为 ytryt2。 


当 ESTIMATE 语 句 中 不 指定 任何 选项 时 ， 如 : 





estimate; 

系统 将 只 拟 合 均值 MU， 默 认 的 模型 为 yy= MU+yt-1+st， 该 模型 也 称 为 带 漂移 项 的 随机 游 走 模型 。 

因此 ， 使 用 ARIMA 过 程 进行 非 平 稳 序 列 建 模 的 第 一 步 就 会 要 识别 差分 的 阶 数 d， 通 过 d 阶 差分 将 序列 转换 成 平稳 序列 。 一 般 情况 下 : 

.时间 序列 蕴含 着 显著 的 线性 趋势 ， 一 阶 差分 后 就 可 以 使 得 时 间 序 列 转换 为 平稳 序列 。 

时间 序列 草 含 着 曲线 趋势 ， 通 常 低 阶 〈 二 阶 ) 差分 就 可 以 提取 出 曲线 趋势 的 影响 。 

. 对 列 含 着 固定 周期 的 序列 进行 步 长 为 周期 长 度 的 差分 运算 ， 通 常 可 以 较 好 地 提取 周期 信息 。 

需要 注意 的 是 ， 差 分 运算 的 阶 数 并 不 是 越 多 越 好 。 因 为 差分 运算 是 一 种 对 信息 提取 、 加 工 的 过 程 ， 每 次 差分 都 会 有 信息 的 损失 ， 所 以 在 实际 应 用 中 ， 差 分 运算 的 阶 数 要 适当 ， 应 当 人 避免 过 度 差分 。 
在 ARIMA 模 型 中 ， 当 d=1，p=q=0 时 ，ARIMA (0，1，0) 模型 为 : 

yt 二 yte1+est 


该 模型 被 称 为 随机 游 走 (Random Walk) 模型 或 者 醉 汉 模型 。 作 为 一 个 最 简单 的 ARIMA 模 型 ， 随 机 游 走 模 型 是 一 个 典型 的 合 随 机 时 间 趋 势 的 模型 ， 目 前 广泛 应 用 于 计量 经 济 学 领域 。 传 统 的 经 济 学 家 
普遍 认为 ， 投 机 价格 的 走势 类 似 于 随机 游 走 模型 ， 随 机 游 走 模型 也 是 有 效 市 场 理 论 的 核心 。 


另 一 个 重要 的 ARIMA (0，1，0) 模型 是 带 漂移 项 的 随机 游 走 模型 ， 模 型 表示 为 : 


yt 一 ATyt1 二 st 


来 看 图 17.54 中 的 两 个 序列 ， 一 个 是 趋势 平稳 时 间 序 列 ， 一 个 是 带 漂 移 项 的 随机 游 走 序列 ，eps 表 示 随 机 干扰 。 
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图 17.54 趋势 平稳 时 间 序 列 和 带 漂移 项 的 随机 游 走 序列 
两 个 序列 在 图 形 上 非常 相似 ， 似 乎 都 包含 线性 趋势 ， 很 难 区 分 。 
但 是 ， 在 实际 应 用 中 ， 如 果 和 凭借 直观 判断 ， 错 误 地 将 带 漂移 项 的 随机 游 走 当成 趋势 平稳 过 程 ， 用 趋势 拟 合法 去 除 确定 性 趋势 ， 并 进行 建 模 分 析 ， 那 么 由 此 而 得 出 的 结论 是 令 人 怀疑 的 。 


因此 ， 当 我 们 遇 到 非 平 稳 时 间 序 列 时 ， 判 断 其 包含 的 是 确定 性 趋势 还 是 随机 趋势 ， 对 建 模 方法 的 选择 有 很 大 的 影响 。 对 于 趋势 平稳 序列 ， 可 以 用 趋势 拟 合法 消除 确定 性 趋势 ; 对 于 包含 随机 趋势 的 时 间 
序列 ， 则 需要 通过 一 阶 差分 将 序列 转化 为 平稳 序列 。 


单位 根 检验 


单位 根 检验 (Unit Root Test) 方法 就 是 用 来 判断 序列 是 否 需 要 进行 差分 的 方法 ， 换 言 之 ， 也 就 是 用 来 判断 序列 是 否 平稳 。 在 单位 根 检验 法 中 ， 常 用 的 是 DF 检验 法 。AR (1) 过 程 可 以 表示 为 Xt= 中 1yt- 


1+Et，&t 是 独立 同 分 布 的 ， 并 且 et~N (0，a2。) 。 
由 本 章 前 面 关于 自 回归 模型 的 讨论 可 知 ， 上 式 可 以 写成 


y, = (1 -4B) se, = 》 和 2 


i 
j=0 


因此 中 1 必须 满足 lp1|<1， 才 能 保证 AR (1) 过 程 的 平稳 性 。 由 于 方程 1-p1B=0 的 根 为 9-11， 所 以 ， 平 稳 性 条 件 的 另 一 种 等 价 叙 述 为 : 方程 1-p1B=0 的 根 必 须 在 单位 圆 之 外 。 方 程 1-p1B=0， 也 称 为 
AR (1) 过 程 的 特征 方程 。 


所 以 可 以 通过 检验 特征 方程 的 根 是 在 单位 圆 内 (上) 还 是 单位 圆 外 ， 来 检验 序列 的 平稳 性 ， 这 种 检验 就 称 为 单位 根 检验 。 
由 于 现实 生活 中 绝 大 多 数 序 列 都 是 非 平稳 序列 ， 因 此 根据 特征 方程 根 的 性 质 ， 将 单位 根 检验 的 原 假设 和 备 择 假设 分 别 设 定 为 : 


Ho: 序列 yt 非 平稳 <=>Ho: |911=1， 即 需要 进行 一 阶 差分 

Hi1: 序列 yi 非 平稳 <=>H1: |g1|<1， 即 不 需要 进行 一 阶 差分 

当 显著 性 水 平 为 ac 时 ， 记 To 为 DF 检 验 的 c 分 位 点 。 

. 当 DF 统 计量 <t,， 拒 绝 原 假设 ， 认 为 序列 y( 显 著 平 稳 ， 也 就 是 说 不 需要 进行 差分 。 

. 当 DF 统 计量 >t,。， 接 受 原 假 设 ， 认 为 序列 yl 非 平 稳 ， 需 要 进行 差分 。 

DF 检验 可 用 于 以 下 3 种 过 程 的 平稳 性 检验 。 

` 第 一 种 类 型 : 无 常数 均值 、 无 趋势 的 1 阶 自 回 归 过 程 ， 这 是 我 们 之 前 一 直 分 析 的 类 型 。 

. 第 二 种 类 型 : 有 常数 均值 、 无 趋势 的 1 阶 自 回 归 过 程 ，yt=h+p1yt1+et，et 是 独立 同 分 布 的 ， 并 且 e~N (0, o2) 。 

. 第 三 种 类 型 : 既 有 常数 均值 、 又 有 线性 趋势 的 1 阶 自 回归 过 程 ，y=h+Bt+giy 1+st，e, 是 独立 同 分 布 的 ， 并 且 e~N (0, oo) 。 


DF 检 验 只 适用 于 1 阶 自 回 归 过 程 的 平稳 性 检验 ， 但 是 实际 上 绝 大 多 数 时 间 序 列 不 会 是 一 个 简单 的 AR (1) 过 程 。 为 了 使 DF 检 验 能 广泛 地 适用 于 AR (p) 过 程 的 平稳 性 检验 ， 人 们 对 DF 检 验 进 行 了 一 定 的 
多 正 ， 得 到 了 增 广 DF 检 验 (Augmented Dickey-Fuller) ， 简 记 为 ADF 检 验 。DF 检 验 是 ADF 检 验 的 一 个 特例 。 


人 
和 DF 检验 一 样 ，ADF 检 验 也 可 以 用 于 如 下 3 种 类 型 的 平稳 性 检验 。 
` 第 一 种 类 型 : 无 常数 均值 、 无 趋势 的 p 阶 自 回 归 过 程 。 
` 第 二 种 类 型 : 有 常数 均值 、 无 趋势 的 p 阶 自 回归 过 程 。 
` 第 三 种 类 型 : 既 有 常数 均值 、 又 有 线性 趋势 的 p 阶 自 回 归 过 程 。 


在 ARIMA 过 程 中 ， 使 用 选项 STATIONARY 可 以 指定 进行 ADF 检 验 ， 语 法 如 下 : 














PROC ARIMA DATA= 数 据 集 < 选项 >; 

DENTIFY VAR= 分 析 变 量 STATIONARITY= (ADF= (AR 阶 数 ) ) < 其 他 选项 >， 
ESTIMATE < 选项 >; 
FORECAST OUT= 输 出 数据 集 < 其 他 选项 >; 










































































其 中 ， 当 AR 阶 数 为 0 时 ， 表 示 进 行 上 面 介绍 的 3 种 类 型 (无 常数 均值 、 无 趋势 ， 有 常数 均值 、 无 趋势 ， 有 常数 均值 和 线性 趋势 ) 的 1 阶 自 回归 过 程 平稳 性 检验 ; AR 阶 数 为 1 时 ， 表 示 进 行 上 面 介绍 的 3 种 类 
型 的 2 阶 自 回归 过 程 的 平稳 性 检验 ; 依 此 类 推 。 可 以 同时 指定 进行 多 个 阶 数 自 回归 过 程 的 平稳 性 检验 。 


例 17.10: 数据 集 ex.production 中 的 序列 PROD 代 表 一 段 时 间 内 某 种 工业 原料 的 市 场 供应 量 ， 试 分 析 该 序列 是 否 平稳 。 


proc arima data=ex.production; 
identify var=prod nlag=12 stationarity=(adf=(0 1)); 
CU 











示例 代码 如 下 : 


输出 如 图 17.55 至 图 17.56 所 示 (省 略 白 噪声 检验 结果 ) 。 


“prod” 的 时 间 序 列 
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观测 
图 17.55” 例 17.10 中 序列 PROD 的 时 序 图 


图 中 报表 是 序列 PROD 的 时 序 图 和 ADF 检 验 结果 ， 类 型 一 列 中 的 “ 零 均值 ”、“ 单 均值 ”和 “趋势 ”分 别 对 应 着 ADF 检 验 的 第 一 、 二 、 三 种 类 型 。 滞 后 一 列 有 两 种 取 值 : 0 和 1， 分 别 对 应 着 AR (1) 过 
程 和 AR (2) 过 程 。 在 SAs 中 ，ARIMA 过 程 的 ADF 检 验 ， 基 于 不 同 的 方法 分 别 构造 了 3 种 统计 量 Rho、Tau 和 F 来 进行 单位 根 检验 ， 并 分 别 输出 了 3 种 统计 量 的 取 值 和 对 应 的 P 值 。 


增 广 Dicks 
Rho Pr<Rho Tau 





Pr<Tau FPr>F 





| 
a 





日 su QHsU2 | Ua29 CU/bod 
1 3.2707 0.9988 1.49 09647 
单 均 伍 | 0 | -之 日 220 0.6681 | 上 .68 08429 | 0.93 | 0.8344 
1 2.3661 .9983 | QO.7 0.9924 | 1.19 | 0.7709 
趋势 0 | =20.5678 0 0354 | =2.91 0.16886 | 4.75 | 0.2621 


1 | -13.3296 0.a2016 | -1.86 .6591 | 4363 | 0.4730 


图 17.56” 例 17.10 中 序列 PROD 的 单位 根 检验 报表 















































一 般 情 况 下 ，3 种 统计 量 有 如 下 参考 准则 : 
. 上 统计 量 的 检验 不 如 Rho 统 计量 和 Tau 统 计量 的 检验 结果 准确 ， 不 太 推 荐 参考 。 
. 当 滞后 为 1 (对 应 着 AR (2) 过 程 ) 时 ，Rho 统 计量 的 检验 结果 较 Tau 统 计量 更 准确 ; 其 余 情况 下 ，Tau 统 计量 的 检验 结果 更 具 参 考 价值 。 


这 里 ， 结 合 时 序 图 ， 我 们 看 到 序列 带 有 一 定 的 趋势 ， 因 此 重点 参考 类 型 为 “趋势 ”的 单位 根 检 验 结果 。 根 据 上 面 介 绍 的 参考 准则 ， 对 于 滞后 为 0 和 1 两 种 情形 下 ，p 值 都 大 于 0.05， 说 明 不 能 拒绝 原 假 
设 ， 即 该 序列 是 非 平 稳 的 。 


17.3.3 ”运用 ARIMA 过 程 建立 趋势 模型 


在 例 17.9 中 ， 通 过 PROD 的 时 序 图 可 以 观察 到 序列 具有 一 定 的 趋势 ， 但 是 如 果 序列 的 变异 很 大 ， 有 些 时 候 不 一 定 能 够 从 时 序 图 中 看 出 确定 性 的 趋势 。 这 时 可 以 借助 TIMESERIES 过 程 将 序列 中 的 趋势 周 
期 、 季 节 周 期 等 因素 进行 分 解 ， 以 便 更 加 明确 地 判断 是 否 存在 趋势 或 者 季节 等 因素 。 


使 用 TIMESERIES 过 程 进行 因素 分 解 的 语法 如 下 : 





PROC TIMESERIES DATA= 数 据 集 

































































OUT= | 
PRINT= (选项 ) 
和 (次 项 ) 
SEASONALITY=n 
D ID 变 量 INTERVAIL= 时 间 向 隔 ; 
VAR 分 析 变 量 ; 
DECOMP 选项 / MODE=ADD|MULT | 其 他; 
RUN; 
其 中 : 


* 选项 SEASONALITY= 可 以 指定 季节 周期 的 长 度 。 例 如 ，SEASONALITY=3 表 示 序 列 中 每 3 个 数据 形成 一 个 季节 周期 。 如 果 没 有 使 用 选项 SEASONALITY= 指 定 季 节 周 期 的 长 度 ， 系 统 将 根据 ID 语句 中 


的 选项 INTERVAL 来 判断 季节 周期 ， 例 如 ，INTERVAL=MONTH， 则 表示 SEASONALITY=12。 


` 在 一 个 TTIMESERIES 过 程 中 ， 只 能 使 用 一 个 DECOMP 语 句 。DECOMP 语 句 用 来 进行 趋势 、 季 节 等 因素 的 分 解 ， 常 见 的 选项 有 ORIG (原始 序列 ) 、TCC (trend-cycle component) 、SC (seasonal 


component) 等 。 选 项 MODE=ADD 时 表示 所 有 因素 是 相 加 的 关系 ， 选 项 MODE=MULT 时 表示 所 有 因素 是 相 乘 的 关系 。 
例 17.11: 数据 集 ex.demanding 中 包含 了 某 种 工业 原料 从 2003 年 1 月 到 2009 年 9 月 的 市 场 需求 数据 。 试 分 析 序 列 demand， 并 进行 建 模 分 析 。 


第 一 步 : 用 TIMESERIES 过 程 对 序列 demand 的 趋势 和 季节 成 分 进行 分 解 ， 观 察 序列 中 是 否 存 在 明显 的 趋势 或 者 季节 成 分 。 代 码 如 下 : 





proc timeseries data=ex.demanding out=work.temp 
print= (descstats) 
plot= (series decomp tcc sc corr acf pacf iacf wn) 
seasonality=12; 
id date interval=month; 
Var demandgd; 
decomp tcc sc / mode=mult; 
run; 





























图 17.57 是 序列 demand 中 的 趋势 成 分 (这 里 暂 不 输出 季节 成 分 ) 。 
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图 17.57 ” 例 17.11 中 序列 DEMAND 的 趋势 周期 成 分 
该 序列 的 变异 比较 大 ， 并 且 存 在 一 些 异常 值 ， 图 中 的 趋势 周期 成 分 帮助 我 们 观察 到 序列 可 能 存在 二 次 趋势 。 
在 上 面 的 代码 中 ， 还 指定 输出 了 序列 的 相关 关系 图 以 及 白 噪声 概率 图 ， 输 出 如 图 17.58 所 示 。 


在 PACF 图 和 IACF 图 中 ， 偏 自 相关 系数 和 逆 自 相关 系数 在 一 阶 延 迟 之 后 都 迅速 衰减 成 小 值 振 荡 ， 和 AR (1) 过 程 的 特征 相符 。 白 噪声 检验 揭示 该 序列 不 是 白 噪 声 序 列 。 








第 二 步 : 对 序列 进行 单位 根 检验 ， 
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图 17.58” 例 17.11 中 序列 DEMAND 的 相关 性 分 析 


判断 序列 是 否 平稳 ， 是 否 有 必要 进行 一 阶 差 分 ， 如 图 17.59 所 示 。 
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图 17.59” 例 17.11 中 序列 DEMAND 的 单位 根 检验 报表 
单 均 值 和 趋势 类 型 下 的 ADF 检 验 的 p 值 都 小 于 0.05， 说 明 序 列 是 显著 平稳 的 。 因 为 ADF 检 验 结果 显示 序列 是 平稳 的 ， 不 需要 进行 一 阶 差分 ， 结 合 序列 的 自 相 关系 数 图 ， 可 以 考虑 使 用 AR (1) 模型 。 


但 是 序列 的 时 序 图 和 TIMESERIES 过 程 都 揭示 了 序列 具有 二 次 函数 的 趋势 ， 这 和 单位 根 检 验 的 结果 不 太一 致 ， 因 为 单位 根 检验 中 不 能 检验 二 次 趋势 。 因 此 在 建 模 分 析 时 ， 可 以 考虑 多 个 模型 ， 例 如 ， 建 立 
包含 以 二 次 趋势 为 输入 变量 的 模型 ， 或 者 单独 根据 平稳 时 间 序 列 的 判断 建立 模型 ， 甚 至 也 可 以 考虑 dx#0 的 非 平稳 模型 。 实 际 操作 中 ， 由 于 各 种 各 样 的 原因 ， 导 致 这 种 时 序 图 和 检验 结果 有 差别 的 情况 时 有 发 
生 ， 当 遇 到 这 种 情况 时 ， 不 能 盲目 地 依赖 时 序 图 或 者 检验 结果 ， 在 建 模型 的 时 候 应 该 充分 考虑 多 种 情况 。 


用 ARIMA 过 程 建立 包含 确定 时 间 趋 势 序列 的 模型 时 ， 需 要 预先 生成 趋势 变量 。_LINEAR_ 和 _SQAURE 是 新 生成 的 代表 线性 和 二 次 关系 的 趋势 变量 。 代 码 如 下 : 





data work.demanding; 























































































































set ex.demanding end=eof; 

LINEAR +1; 

SQUARE = LINEAR * LINEAR ; 

output; 

if eof then do t=1 to 24; 

LINEAR +1; 

SQUARE = LINEAR * LINEAR ; 
demang=.; 
date=intnx('month',date,1); 
output; 

end; 

drop 七 7 





第 三 步 : 拟 合 模型 ， 进 行 参数 估计 、 诊 断 检验 和 预测 。 


根据 ADF 检 验 的 结果 和 序列 自 相关 系数 图 ， 先 尝试 使 用 平稳 序列 建 模 的 方法 拟 合 AR (1) 模型 。 代 码 如 下 : 





proc arima data=work.demanding plots=all ， 
identify var=demand noprint; 
estimate p=1 mil; 
forecast lead=12 id=date interval=month out=work.ARl1; 














为 了 便于 比较 ， 将 预测 数据 输出 到 数据 集 work.AR1 中 ， 如 图 17.60 至 图 17.62 所 示 。 








乱 数 t 值 | Pr>| 
MU | 3138.6 | 120.49446 | 25.05 | <.0001 0 
AR11| 0.62847 | 0.09148 | 687 <0001 1 
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图 17.60” 例 17.11 中 序列 DEMAND 的 AR (1) 模型 参数 估计 和 拟 合 优 度 报表 
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图 17.61 例 17.11 中 序列 DEMAND 的 AR (1) 模型 残 差 诊断 


“demand” 的 残 差 正 态 诊 断 














图 17.62” 例 17.11 中 序列 DEMAND 的 AR (1) 模型 残 差 正 态 诊断 


可 以 看 到 ， 模 型 中 的 参数 (AR1，1) 是 显著 的 ， 在 残 差 的 自 相关 检验 和 正 态 性 检验 中 ， 都 表示 AR (1) 模型 可 以 充分 拟 合 序列 。 


预测 效果 图 如 图 17.63 所 示 。 
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图 17.63” 例 17.11 中 序列 DEMAND 的 AR (1) 模型 预测 效果 图 


虽然 诊断 结果 显示 AR (1) 对 于 demand 序 列 的 拟 合 是 足够 的 ， 但 是 从 预测 效果 图 看 来 ， 对 未 来 的 预测 效果 和 序列 的 变化 趋势 明显 不 符合 的 。 特 别 是 可 以 看 到 ， 序 列 的 最 后 6 个 观测 的 预测 值 都 明显 比 实 
际 观测 值 大 ， 说 明 预 测 的 偏差 可 能 较 大 。 


ADF 检 验 虽 然 认 为 序列 是 平稳 的 ， 但 是 预测 效果 不 太 理想 ， 因 此 接 下 来 要 尝试 使 用 非 平稳 时 间 序 列 分 析 的 方法 进行 建 模 。 代 码 如 下 : 





proc arima data=work.demanding plots=all; 
identify var=demand (1) nlag=12; 
run; 











输出 一 阶 差 分 后 ， 序 列 的 自 相 关系 数 图 如 图 17.64 所 示 。 


“demand(1)” 的 趋势 和 相关 分 析 
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图 17.64 ”序列 DEMAND (1) 的 趋势 和 相关 分 析 


对 于 差分 后 的 序列 ， 自 相关 系数 图 显示 AR (1) 或 者 MA (1) 是 合适 。 


根据 原始 序列 demand， 对 ARIMA (1，1，0) 模型 进行 拟 合 。 代 码 如 下 : 





proc arima data=work.demanding plots=all; 
identify var=demand (1) nlag=12 noprint; 
estimate p=1 mil; 
forecast lead=12 id=date interval=month out=work.D1 AR1; 


run; 




















图 17.65 和 图 17.66 中 显示 的 是 ARIMA (1，1，0) 模型 拟 合 优 度 报表 和 诊断 检验 的 结果 ， 表 明 ARIMA (1，1，0) 模型 合格 。 








图 17.65 “序列 DEMAND 的 ARIMA (1，1，0) 模型 拟 合 优 度 报表 
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图 17.66 ”序列 DEMAND 的 ARIMA (1，1，0) 模型 残 差 诊断 


ARIMA (1，1，0) 的 预测 效果 如 图 17.67 所 示 。 
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图 17.67 “序列 DEMAND 的 ARIMA (1，1，0) 模型 预测 效果 图 
ARIMA (1，1，0) 的 预测 效果 比较 合理 ， 没 有 出 现 AR (1) 那样 明显 的 偏差 。 但 是 该 模型 95% 的 预测 置信 域 很 宽 ， 置 信 域 越 宽 表明 预测 的 精度 越 低 。 


TIMESERIES 过 程 明显 显示 序列 具有 二 次 趋势 ， 因 此 ， 可 以 继续 尝试 引入 确定 性 趋势 。 代 码 如 下 : 


proc arima data=work.demanding plots=all; 
identify var=demand crosscorr=( linear square ) noprint; 
estimate input=( linear _square ) ml; 
forecast lead=0 out=work.resi; 

run; 

quit; 














参数 估计 和 诊断 检验 结果 如 图 17.68 和 图 17.69 所 示 。 


最 大 似 然 估计 








大 数 估计 t 伍 Pr> 装 湖 后 李 量 | 
MU | 29909 | 160.74312 | 18.61 <0001 0 | demand 0 
NUM1 | 2134047 904734 | 236 00183 | 0| _UNEAR_ | 0 
NUMZ | -032573| 0.10691 | -3.05 00022 | 0 | _SQUARE_ 0 


党 部 估计 2990.955 | 
方差 估计 | 221249.3 
标准 误差 估计 | 470.3715 
AIC | 1229.682 
| 1236.865 
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图 17.68 ”序列 DEMAND 引入 外 部 变量 的 模型 参数 估计 和 拟 合 优 度 报 表 
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图 17.69 ”序列 DEMAND 引入 外 部 变量 的 模型 残 差 诊断 


参数 估计 的 结果 显示 线性 趋势 变量 和 二 次 趋势 变量 的 系数 都 是 显著 不 为 0 的 ， 但 是 残 差 诊 断 显 示 ， 仪 根据 线性 趋势 变量 和 二 次 趋势 变量 拟 合 出 的 回归 模型 没有 能 将 序列 中 的 自 相 关 关 系 考 虑 进去 。 因 此 ， 
仍然 需要 对 残 差 序列 进行 建 模 。 此 时 ， 可 以 运用 ADF 检 验 对 残 差 序 列 的 平稳 性 进行 检验 。 这 里 将 ADF 检 验 这 一 步 省 略 。 


上 面 demand 的 残 差 相关 诊断 中 ，PACF 图 和 IACF 图 都 显示 AR (1) 过 程 可 以 用 来 拟 合 残 差 。 因 此 ， 我 们 有 以 下 代码 : 


proc arima data=work.demanding plots=all; 
identify var=demand crosscorr=( linear square ) noprint; 








estimate input=( linear square ) p=1 ml; 
forecast lead=12 id=date interval=month out=work.Quad; 
run; 


quit; 











参数 估计 和 诊断 检验 的 结果 如 图 17.70 和 图 17.71 所 示 。 
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图 17.70 “序列 DEMAND 引入 外 部 变量 的 AR (1) 模型 参数 估计 和 拟 合 优 度 报表 
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图 17.71 序列 DEMAND 引入 外 部 变量 的 AR (1) 模型 残 差 诊断 


残 差 诊 断 检 验 显示 该 模型 是 合适 的 ， 
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95% 的 置信 域 其 宽度 明显 收 窒 ， 但 是 预测 效果 中 仍然 没 


2004 


但 是 ， 参 数 估计 报表 显示 线性 趋势 变量 的 系数 不 显著 。 该 模型 的 预测 效果 图 如 图 17.72 所 示 。 


demand ”预测 
































图 17.72 ”序列 DEMAND 引入 外 部 变量 的 AR (1) 模型 预测 效果 图 


能 将 序列 末端 的 迅速 衰减 描述 出 来 ， 因 此 ， 我 们 猜想 ， 


需要 进一步 改善 预测 ， 需 要 在 预测 的 过 程 中 加 入 外 部 变量 。 考 虑 外 部 变量 的 时 间 序列 分 析 不 属于 本 章 的 范畴 ， 读 者 如 果 有 兴趣 可 以 参考 SAs 帮 助 文 档 。 


第 四 步 : 模型 比较 。 


针对 这 个 时 间 序 列 建 立 3 个 模型 ， 如 表 17.2 所 示 。 其 中 AIC 和 SBC 值 代表 各 个 模型 的 拟 合 优 度 信息 。 


模 
AR(1) 


Quadratic+AR(1) 
ARIMA(1.1.0) 


表 17.2 例 17.11 中 模型 汇总 


AIC 


从 拟 合 优 度 来 看 ，ARIMA (1，1，0) 模型 要 优 于 其 他 两 个 模型 。 


@ 注 意 在 选择 模型 时 ， 要 综合 


考虑 其 他 因素 ， 比 如 预测 效果 、 模 型 对 数据 的 解释 效果 等 。 不 能 盲目 依赖 拟 合 优 度 选择 模型 。 


通过 例 17.11， 基 本 把 时 间 序 列 分 析 的 整个 过 程 都 实践 了 一 遍 。 接 下 来 ， 将 介绍 如 何 进 一 步 改进 模型 ， 提 高 预测 的 准确 度 。 


17.3.4 异常 点 检测 


如 下 : 
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可 能 序列 未 端的 迅速 衰减 是 和 一 些 外 部 数据 (如 ， 经 济 指标 和 商业 指标 等 ) 相关 。 如 果 


ARIMA 过 程 中 进行 异常 点 检测 的 基本 语法 





PROC ARIMA DATA= 数 据 集 ; 


























PSTIMATE < 选项 >; 























DENTIFY VAR= 分 析 变 量 < 其 他 选项 >; 





OUTLIER TYPE=(AO LS TC (dl d2)) MAXNUM=n ID=ID 变 量 < 其 他 选项 >; 














FORECAST OUT= 输 出 数据 集 < 其 他 选项 >; 

















点 。 OUTLIER 语 句 中 可 以 检测 3 种 类 型 的 异常 点 ， 如 图 17.73 所 示 。 


. 选项 ADDITIVE 用 来 指定 检测 脉冲 型 异常 点 ，ADDITIVE 可 以 简写 为 AO 。 


选项 SHIFT 用 来 指定 检测 永久 位 移 异 常 点 ，SHIFT 可 以 简写 成 LS。 


` 选项 TEMP (d1d2…) 用 来 检测 持续 时 长 为 d1 或 者 d2 的 位 移 异 常 点 ， 可 以 简写 成 TC (d1d2…) 。 





脉 中 型 卉 常 点 永久 位 移 寞 党 点 持续 时 长 为 4d1 的 位 移 寞 常 点 
图 17.73 ”3 种 类 型 的 异常 点 图 示 


例 17.12: 在 例 17.11 中 ， 使 用 了 各 种 方法 进行 建 模 ， 但 是 预测 效果 始终 不 是 太 好 。 这 里 考虑 在 ARIMA (1，1，0) 模型 的 基础 上 ， 使 用 OUTLIER 语 句 对 demand 序 列 进行 异常 点 进行 检测 ， 然 后 在 此 基 
础 上 对 ARIMA (1，1，0) 模型 进行 改进 。 


示例 代码 如 下 : 


proc arima data=work.demanding; 
identify var=demand(1) noprint; 
estimate p=1 ml; 
outlier type=(ao 1s tc(5)) maxnum=5 id=date; 


quit; 











选项 MAXNUM = 9 指定 检测 9 个 异常 点 ， 但 序列 中 可 能 不 止 存在 9 个 异常 点 ， 默 认 情况 下 ， 选 项 MAXNUM 的 取 值 为 ?。 有 异常 点 的 输出 如 图 17.74 所 示 。 
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图 17.74” 例 17.12 中 序列 DEMAND 的 OUTLIER 详 细 信 息 


找到 这 些 异 常 点 之 后 ， 即 可 根据 这 些 异 常 点 的 位 置 极其 类 型 创建 新 的 输入 变量 ， 并 将 这 些 变 量 作 为 输入 变量 引入 模型 中 。 代 码 如 下 : 



































data work.demanding; 

set work.demanding; 

AO OCT2005= ("010CT2005'd<=date<="'310CT2005'gd); 
AO JUL2003=("'01JUL2003'd<=date<="'31JUL2003'gd); 
AO MAR2003= ("O01MAR2003'd<=date<="31MAR2003'gd); 
AO AUG2005= ("01AUG2005'd<=date<="'31AUG2005'gd); 
AO MAR2009= ("O01MAR2009'd<=date<="'31MAR2009'gd); 
AO JUN2008= ("01JUN2008'd<=date<="'30JUN2008"'qd); 
LS JUN2003= (date>="'01JUN2003'g); 

TC5 JAN2004= ("O01JAN2004'd<=date<="'31MAY2004'd); 
TC5 FEB2003=("'01FEB2003'd<=date<='30JUN2003'g); 





























run; 

proc arima data=work.demanding plots=all; 
identify var=demand 
Crosscorr=( linear square AO OCT2005 AO JUL2003 

AO MAR2009 AO JUN2008 TC5 JAN2004 TC5 FEB2003 AO MAR2003 AO AUG2005 LS JUN2003) noprint; 
estimate p=(1] 3) input=( linear square AO OCT2005 AO JUL2003 AO MAR2009 AO_ 
JUN2008 TC5 JAN2004 TC5 FEB2003 AO MAR2003 AO AUG2005 LS JUN2003) ml; 

forecast lead=12 id=date interval=month ，; 


















































模型 的 参数 估计 和 残 差 诊 断 检验 结果 都 显示 模型 是 合适 的 。 相 较 于 前 面 3 个 模型 ， 该 模型 的 预测 效果 也 更 加 合理 ， 如 图 17.75 所 示 。 
17.3.5 “运用 其 他 过 程 建 立 趋 势 模 型 


前 面 已 经 介绍 了 使 用 ARIMA 过 程 对 平稳 序列 和 非 平 稳 序 列 进行 建 模 的 方法 。 除 了 ARIMA 过 程 ，SAS/ETS 中 的 FORECAST 过 程 、AUTOREG 过 程 和 ESM 过 程 也 可 以 对 时 间 序 列 进行 分 析 和 预测 。 


“demand” 预 测 
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图 17.75” 例 17.12 中 序列 DEMAND 的 预测 效果 图 
1.FORECAST 过 程 


FORECAST 过 程 可 以 为 成 百 上 干 个 时 间 序 列 快速 自动 地 生成 预测 。 和 ARIMA 过 程 不 同 的 是 ，FORECAST 过 程 仅 考 虑 序列 和 时 间 以 及 自 回归 项 的 关系 ， 而 不 能 考虑 序列 和 移动 平均 项 的 关系 ， 也 不 能 在 建 
模 过 程 中 引入 其 他 输入 变量 。 


运用 FORECAST 过 程 进行 时 间 序 列 预 测 的 基本 语法 如 下 : 





PROC FORECAST DATA= 数 据 集 0UT= 输 出 数据 集 
OUTEST= 参 数 集 

TREND=11213 

AR=n 

METHOD=STEPAR |EXPO http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/... 
ENTRY= 值 1 SLSTAY= 值 2 中 

NTERVAIL= 时 间 间 隔 

LEAD=m < 其 他 选项 >; 

BY 分 类 变量 ; 
D ID 变量 ; 

VAR 分 析 变 量 ; 







































































RUN 


其 中 : 


* 当 要 为 多 个 时 间 序 列 进行 预测 时 ，BY 语 和 句 中 的 分 类 变量 的 不 同 水 平 即 代表 不 同 的 时 间 序 列 的 名 称 。 


` 选项 TREND=1 表 示 使 用 无 趋势 模型 ，TREND=2 表 示 使 用 线性 趋势 模型 ，TREND=3 表 示 使 用 二 次 趋势 模型 。 


“ 选项 AR=n 表 示 在 模型 中 最 多 考虑 n 阶 自 回 归 项 。 


. 选项 METHOD=STEPAR 表 示 使 用 逐步 回归 的 方法 进行 自 回归 项 的 选择 ， 这 方法 的 原理 和 线性 回归 中 的 STEPWTISE 方 法 类 似 ， 只 是 这 里 选择 的 自 变量 都 是 自 回归 项 。 当 选项 METHOD=BXPO 时 表示 使 
用 指数 平滑 法 。 


. 选项 SLENTRY= 和 SLSTAY= 等 号 后 面 的 取 值 规则 也 和 线性 回归 中 类 似 ，SLENTRY= 和 SLSTAY= 等 号 后 面 的 取 值 都 必须 在 0 和 1 之 间 ， 用 于 控制 自 回 归 项 是 否 进 入 模型 ， 或 者 是 否 被 剔除 出 模型 ， 仅 在 
MEHTOD=METHOD=STEPAR 时 起 作用 。 默 认 情 况 下 ，SLENTRY=0.2， 当 自 回归 项 的 参数 的 p 值 小 于 0.2 时 ， 该 自 回 归 项 被 选 入 模型 ; 默认 SLSTAY=0.05， 当 模型 中 自 回归 项 的 参数 的 p 值 大 于 0.05 时 ， 则 该 
自 回归 项 将 被 别 除 出 模型 。 


例 17.13: 使 用 FORECAST 过 程 对 序列 demand 进 行 预测 。 


示例 代码 如 下 : 

















proc forecast data=ex.demanding out=work.demandARfor 
outal 








FORECAST 过 程 不 输出 任何 报表 。 观 测 值 、 预 测 值 和 残 差 都 保存 在 work.demandARfor 中 ， 参 数 估 计 和 模型 的 诊断 都 保存 在 work.parameters 中 。 这 两 个 数据 集 的 示例 如 图 17.76 和 图 17.77 所 示 。 
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图 17.76 ”数据 集 wotk.demandARfor 部 分 内 容 


nD 
U 
U 
0 
U 
1] 
1 
] 
] 
之 
c 


5 开间 数 | Demanad 


=.DDB 
-2bb 
1.975 
d.315 
-中 0 
dD 
1.381 
中 4 

了 .12 
< 
1.403 
4 

了 .de 





CE ¥LEYITABLE.: Vork. Par am ef Lars 








— AMSE 


| 
i | 





DL ms 





USEPFeUU3 
D1sEP200d 
1 2 FeUU3 


01SEP2009 
山 5EFeUU3 
UsEFe<003 
01SEP2009 
山 5EPeUU3 
US5EPFe<UU3 
由 5EFe<UU3 
山 s5EPFe<UU3 
Us5EFeUU3 
山 5EPFe<UU3 
01SEP2009 


Us5EFeuUU5 
hs 





1 re 
2 oes 
21.34047 

jbr3 

0.483887 


<Ub JJbb7 
13132019 
170546. 46 


中 | drier 





图 17.77 分 内 容 


数据 集 wotk.patametets 部 


2.AUTOREG 过 程 


在 使 用 ARIMA 模 型 拟 合 时 间 序 列 时 ， 对 残 差 序列 有 个 重要 的 假定 ， 即 残 差 序 列 是 均值 为 0、 方 差 相 等 的 白 噪 声 序列 。 换 言 之 ， 成 为 残 差 序列 要 满足 如 下 3 个 条 件 : 
. 均值 为 零 。 

. 具有 纯 随 机 性 ， 即 序列 之 间 不 存在 任何 相关 性 。 

' 具有 方差 齐 性 特征 ， 即 残 差 序列 的 方差 是 常数 。 

它 会 随 着 时 间 的 变化 而 变化 ， 可 以 表示 为 时 间 的 某 个 函数 ， 


如 果 方 差 齐 性 的 假定 不 成 立 ， 那 么 残 差 序列 的 方差 就 不 再 是 常数 ， 这 种 情况 被 称 作 异 方差 。 


在 残 差 序列 的 这 3 个 假定 中 ， 实 现 零 均值 的 假 
齐 性 的 假定 
不 总 是 满足 。 忽 视 异 方差 的 存在 会 


定 只 需 对 序列 进行 中 心 化 处 理 就 可 以 ， 无 需 检 验 ; 纯 随机 性 的 假定 可 以 通过 构造 统计 量 进行 检验 ， 也 就 是 前 面 介 绍 的 白 噪 声 检验 。 只 有 第 3 个 假定 一 一 方差 
， 我 们 没有 进行 任何 检验 方法 。 对 于 平稳 序列 ， 方 差 齐 性 的 条 件 是 自动 满足 的 ;对 于 非 平稳 序列 ， 在 默认 检验 的 情况 下 ， 是 默认 残 差 序列 一 定 满足 这 个 条 件 的 。 但 是 ， 实 际 上 ， 这 个 假定 条 件 并 
导致 残 差 的 方差 被 严重 低估 ， 继 而 致使 参数 显著 性 检验 失去 意义 ， 导 致 模型 的 拟 合 精度 受 影响 。 在 序列 异 方差 和 自 相关 的 情况 下 ， 可 以 使 用 自 回 归 误差 模型 进行 预测 。 自 


回归 误差 模型 的 形式 如 下 : 
ypB+2zt 
2 二 中 12t1- 中 2242 一 -中 m2Ztm 十 Et 
si~N (0，o2) 
其 中 : 
Xt= (x1，.…，Xk) 为 自 变量 组 成 的 向 量 ，x1，.…，xk 也 称 为 输入 变量 ; B= (B1，.…，Bk) 是 对 应 自 变量 的 系数 组 成 的 向 量 ; st 服从 均值 为 0， 方 差 为 o“ 的 正 态 分 布 。 


SAS 提 供 了 AUTOREG 过 程 拟 合 自 回归 误差 模型 。AUTOREG 过 程 还 可 以 进行 包括 ADF 检 验 在 内 的 平稳 性 检验 ， 并 且 集 成 了 多 种 参数 估计 方法 ， 如 Yule-Walker 佑 计 、 条 件 最 小 二 乘 估计 法 和 极 大 似 然 估 
计 法 。 使 用 AUTOREG 过 程 进行 预测 的 基本 语法 如 下 : 














PROC AUTOREG DATA= 数 据 集 < 其 他 选项 >; 

MODEL 分 析 变 量 = 输 入 变量 1 输入 变量 2 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/... 
< /NLAG=n BACKSTEP < 其 他 选项 >>; 
RUN; 












































其 中 : 
.分析 变量 表示 需要 预测 的 序列 ， 相 当 于 因 变 量 ; 输入 变量 表示 除了 分 析 变 量 之 外 的 其 他 对 分 析 变 量 有 影响 的 变量 ， 相 当 于 自 变量 。 例 如 ， 例 17.11 中 构造 的 变量 LINEAR_ 和 _SQUARE _。 
. 选项 NLAG=n 表 示 最 多 考虑 n 阶 自 回 归 误 差 项 ， 选 项 BACKSTEP 表 示 在 对 自 回归 误差 项 进行 选择 时 ， 使 用 向 后 消除 法 ， 和 线性 回归 中 的 BACKSTEP 方 法 一 样 。 

例 17.14: 运用 AUTOREG 过 程 ， 拟 合 以 下 时 间 序列 。 


示例 代码 如 下 : 


data work.exampleautoreg; 

input x Q@@; 

t= MN > 

datalines; 
3.03 8.46 10.22 9.80 11.96 2.83 
8.43 13.77 16.18 16.84 19.57 13.26 
14.78 24.48 28.16 28.27 32.62 18.44 
25.25 38.36 43.70 44.46 50.66 33.01 
39.97 60.17 68.12 68.84 78.15 49.84 
62.23 91.49 103.20 104.53 118.18 77.88 
94.75 138.36 155.68 157.46 177.69 117.15 


[4 

















rn: 
proc sgplot data=work.exampleautoreg; 
scatter x=t y=x; 
series x=t y=x; 
run; 











以 上 程序 生成 一 个 时 间 序 列 X， 并 作出 了 该 时 间 序 列 的 时 序 图 ， 如 图 17.78 所 示 。 
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图 17.78 ” 例 17.14 中 序列 XX 的 时 序 图 


该 时 间 序 列 显然 是 非 平稳 的 ， 对 其 进行 一 阶 差 分 后 ， 时 序 图 如 图 17.79 所 示 。 
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图 17.79 ” 例 17.14 中 序列 X 进 行 一 阶 差分 后 的 时 序 图 


一 阶 差分 后 ， 序 列 的 方差 随 着 时 间 的 变化 越 来 越 大 ， 具 有 明显 的 异 方差 性 质 。 
调用 AUTOREG 过 程 进行 拟 合 。 代 码 如 下 : 


proc autoreg data=work.exampleautoreg; 
model x = t /nlag=12 backstep; 
output out=work.Autoreg output UCL=U95 LCI=L95 Predicted=Forecast; 








run; 

proc sgplot data=work.Autoreg output; 
band x=t lower=L95 upper=U95; 
scatter x=t y=x; 
series x=t y=forecast; 

工 UL7 





AUTOREG 过 程 中 将 数据 集 work.exampleautoreg 中 的 变量 、 计 算出 的 预测 值 、959% 置 信 上 限 和 959% 置 信 下 限 都 保存 到 数据 集 work.Autoreg_demand， 同 时 ， 将 上 下 置信 限 和 预测 值 的 列 名 分 别 更 改 


为 了 U95、L95 和 Forecast。 


预测 效果 如 图 17.80 所 示 。 
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图 17.80” 例 17.14 中 序列 义 的 预测 效果 图 


其 中 ， 深 色 区 域 是 预测 值 95% 的 置信 区 域 ， 圆 点 是 实际 值 ， 折 线 代 表 着 预测 值 。 从 预测 效果 来 看 ，AUTOREG 过 程 很 好 地 拟 合 了 该 时 间 序 列 。 这 里 省 略 了 AUTOREG 过 程 中 的 参数 估计 和 拟 合 诊断 检验 的 
输出 内 容 。 


需要 注意 的 是 ， 在 AUTOREG 过 程 中 不 能 使 用 选项 LEAD 指 定 预 测 的 期 数 ， 这 是 因为 AUTOREG 过 程 中 包含 输入 变量 ， 而 过 程 自身 是 不 能 预测 输入 变量 的 。 这 一 点 和 REG 过 程 类 似 。 因 此 ，AUTOREG 过 
程 更 加 适合 用 于 插值 和 推测 。 这 里 如 果 要 用 AUTOREG 过 程 实现 对 未 来 的 预测 ， 需 要 对 输入 数据 集 work.Exampleautoreg 进 行 扩充 ， 并 对 输入 变量 t 冉 值 。 


此 外 ，AUTOREG 过 程 还 可 以 拟 合 ARCH 模 型 、GARCH 模 型 和 IGARCH 模 型 等 ， 有 兴趣 的 读者 可 以 查看 SAS 帮 助 文档 进一步 了 解 。 
3.ESM 过 程 


平滑 法 是 进行 趋势 分 析 和 预测 时 常用 的 一 种 方法 。 它 是 利用 修 匀 技术 ， 消 弱 短 期 随机 波动 对 序列 的 影响 ， 使 序列 平滑 化 ， 从 而 显示 出 变化 的 规律 。 它 具有 调节 灵活 、 计 算 简便 的 特征 ， 广 泛 应 用 于 计量 
经 济 、 人 口 研究 等 诸多 领域 。 根 据 所 用 的 技术 不 同 ， 平 滑 法 可 以 具体 分 为 移动 平均 法 和 指数 平滑 法 。 


移动 平均 法 的 基本 思想 是 对 于 一 个 时 间 序 列 ， 可 以 假定 在 一 个 比较 短 的 时 间 间 隔 里 ， 序 列 的 取 值 是 比较 稳定 的 ， 它 们 之 间 的 差异 主要 是 由 随机 波动 造成 的 。 根 据 这 种 假定 ， 可 以 用 一 定时 间 间 隔 内 的 平 
均值 作为 某 一 期 的 估计 值 。 以 n 期 移动 平均 为 例 ，“…” ”相当 于 用 近 n 期 的 加 权 平 均 数 作为 最 后 一 期 趋势 的 估计 值 ， 它 们 的 权重 都 取 为 实际 上 也 就 是 假定 无 论 时 间 的 远近 ， 这 mn 期 的 观测 值 yt，yt-1， 
和 yt-n+1 对 最 后 一 期 的 影响 都 是 一 样 的 。 


但 在 实际 生活 中 ， 我 们 会 发 现 对 大 多 数 随 机 时 间 而 言 ， 一 般 都 是 近期 的 结果 对 现在 的 影响 会 大 些 ， 远 期 的 结果 对 现在 的 影响 会 小 些 。 为 了 更 好 地 反映 这 种 影响 的 作用 ， 将 考虑 时 间 间 隔 对 事件 发 展 的 影 
响 ， 即 各 期 权重 随时 间 间 隔 的 增 大 而 对 现在 的 影响 呈 指 数 豪 减 。 这 就 是 指数 平滑 法 的 基本 思想 。 


SAS 的 ESM 过 程 支持 以 下 三 大 类 (七 小 类 ) 指数 平滑 模型 
(1) 带 线 性 趋势 的 指数 平滑 模型 


简单 指数 平滑 模型 


md 
— 


2) 二 次 指数 平滑 模型 (也 称 为 Brown 指 数 平滑 模型 ) 
3) Holt 线 性 指数 平滑 模型 


所 


阻尼 趋势 指数 平滑 模型 

(2) 市 季节 性 的 指数 平滑 模型 

季节 指数 平滑 模型 

(3) 带 线性 趋势 和 季节 性 的 指数 平滑 模型 
1) Winter 加 法 指数 平滑 模型 

2) Winter 乘 法 指数 平滑 模型 


以 简单 指数 平滑 模型 为 例 ， 假 设 有 时 间 序 列 y1，y2，…，yt，.…，yn， 简 单 指 数 平 滑 值 的 计算 公式 如 下 : 


Si=owyt+ (1-o) Si 

其 中 ，St 为 第 t 期 简单 指数 平滑 值 ，yt 为 第 t 期 的 观测 值 ，w 为 水 平权 重 ,，0<w<1。 
因此 ， 我 们 有 : 

Si=oyt+ (1-o) Si1 


St1 三 wyt1 十 (1-o) St 2 


S1 三 wy1 十 (1-ow) So 
通过 迭代 可 得 ， 
Sit=oyt+w (1-ow) yt1 十 @ (1-o) 27， 2 十 … 十 (1-o) tSo 


预测 公式 为 : 》%…=*,， 即 将 当期 的 简单 指数 平滑 值 作为 下 一 期 的 预测 值 ， 也 可 以 写成 以 下 形式 : 


y=@Y+(1-w_)y， 或 者 y=y+@(y-y,) 


t+1 


可 以 看 出 ， 下 一 期 的 预测 值 实际 上 是 在 原 预测 值 的 基础 上 利用 误差 进行 调整 。 
初始 值 So 的 取 法 有 很 多 种 ， 通 常会 以 前 n 个 观测 的 平均 值 作为 初始 值 。 从 预测 公式 来 看 ， 在 给 定 初始 值 So 后 ， 简 单 指数 平滑 模型 只 依赖 于 过 去 的 观测 值 和 水 平权 重 w。 我 们 在 分 析 序 列 的 时 人 息 ， 就 是 要 根 
据 实 际 观测 值 ， 估 计 出 w 的 合理 取 值 。 


在 其 他 带 趋 势 的 指数 平滑 模型 中 ， 除 了 需要 估计 水 平权 重 w 以 外 ， 有 的 还 需 估计 趋势 权重 y 和 阻尼 权重 pq; 而 在 带 季 节 性 的 指数 平滑 模型 中 ， 还 需要 估计 季节 权重 5。 


调用 ESM 过 程 进行 指数 平滑 建 模 的 基本 语法 如 下 : 














PROC ESM DATA= 数 据 集 0UT= 输 出 数据 集 1 
UTEST= 输 出 数据 集 2 
UTFOR= 输 出 数据 集 3 
UTSTAT= 输 出 数据 集 4 
UTSUM= 输 出 数据 集 5 
EASONALITY=N 
LOT= 选 项 | (选项 ) 
RINT= 选 项 | (选项 ) 
EAD=m < 其 他 选项 >; 
BY 分 类 变量 ， 
D ID 变量 INTERVAL= 时 间 间 隔 
FORECAST 分 析 变 量 1 < 分 析 变 量 2 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressedq/15092/OEBPSVText/...> / MODEL= 关 键 字 < 其 他 选项 >; 
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RUN; 





其 中 : 

` 选项 OUT= 输 出 包含 FORECAST 语 多 中 指定 的 分 析 变 量 预测 值 的 数据 集 。 

` 选项 OUTIET= 输 出 包含 参数 估计 、 假 设 检验 的 统计 量 、p 值 等 数据 的 数据 集 。 

" 选项 OUTFOR= 输 出 包含 实际 值 、 预 测 值 、 置 信 上 限 、 置 信 下 限 、 残 差 、 预 测 标准 差 的 数据 集 。 


选项 OUTSTAT= 输 出 包含 模型 拟 合 优 度 信息 的 数据 集 ， 便 于 用 来 进行 不 同 模型 的 比较 。 





. 选项 上 OUTSUM= 输 出 汇总 数据 。 
` FORECAST 语 名 中 选项 MODEL 有 7 种 取 值 ， 分 别 对 应 7 种 不 同类 型 的 指数 平滑 模型 ， 如 表 17.3 所 示 。 


表 17.3 指数 平滑 模型 汇总 


天 ”可 指数 平滑 模型 选项 MODEL= 关键 字 
(9 


癌 单 指数 平 : 月 权 型 | 


SIMPLE 





带 趋 执 二 次 指 效 平滑 模型 DOUBLE 
Holt : 线性 指数 平 消 模 型 LINEAR 
阻尼 和 超 执 指数 平滑 模型 "， DAMPTREND 
市 和 李 季节 指数 平 清 模型 SEASONAL 
带 趋势 和 季节 Winters 加 法 虽 煞 平滑 模型 ADDWINTERS 
Winters 乘法 指数 平滑 模型 WINTERS 


例 17.15: 运用 ESM 过 程 ， 对 demand 序 列 进行 预测 。 


示例 代码 如 下 : 








proc esm data=ex.demanding 
outfor=work.outfor (rename= (LONER=L95 UPPER=U95 PREDICT=Forecast)) 
print= (estimates statistics summary) 
seasonality=12 
lead=12;} 
id date interval=month; 
forecast demand / model=linear; 












































runy 
proc sgplot data=work.outfor; 
band x=date upper=U95 lower=L95; 
scatter x=date y=actual; 
series x=date y=forecast; 
refline '0lOct2009'gd /axis=x; 
run; 



































在 ESM 过 程 中 ， 用 线性 指数 平滑 模型 拟 合 了 序列 demand， 并 输出 了 模型 的 参数 估计 和 各 种 拟 合 统计 量 ， 如 图 17.81 所 示 。 参 数 估计 结果 显示 模型 的 趋势 权重 参数 不 显著 
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图 17.81 例 17.15 中 序列 DEMAND 的 线性 指数 平滑 模型 参数 估计 和 拟 合 统计 量 报表 


由 于 ESM 过 程 的 预测 数据 输出 在 work.outfor 中 ， 因 此 运用 SPLOT 过 程 输出 的 预测 效果 图 如 图 17.82 所 示 。 
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图 17.82 例 17.15 中 序列 DEMAND 的 线性 指数 平滑 模型 预测 效果 图 


17.4 ”季节 时 间 序 列 模型 


在 日 常生 活 中 ， 可 以 见 到 许多 有 季节 因素 的 时 间 序列 ， 比 如 : 四 季 的 气温 、 每 个 月 的 商品 零售 额 、 某 自然 景点 每 季度 的 旅游 人 数 等 ， 它 们 都 会 呈现 出 明显 的 季节 变动 规律 。 我 们 还 可 以 把 “季节 ”广义 
化 ， 凡 是 呈现 出 固定 周期 性 变化 的 事件 ， 我 们 都 称 它 具有 “季节 ”因素 。 


时 间 序 列 中 的 季节 因素 通常 可 以 分 为 两 种 : 一 种 是 确定 性 季节 因素 ， 一 种 是 随机 季节 因素 。 


17.4.1 ”确定 性 季节 因素 
包含 确定 性 季节 因素 的 时 间 序列 ， 从 直观 上 讲 ， 每 隔 一 个 周期 的 观测 都 具有 明显 的 相似 性 ， 对 于 这 种 类 型 的 序列 ， 可 以 通过 创建 季节 性 虚拟 变量 ， 并 在 建 模 时 将 季节 性 虚拟 变量 作为 输入 变量 引入 回归 
模型 中 ， 然 后 进行 有 效 的 建 模 分 析 。 
对 于 周期 为 9 的 季节 性 时 间 序 列 ， 可 以 创建 S 个 季节 性 虚拟 变量 ， 每 一 期 一 个 虚拟 变量 。 例 如 ， 对 于 月 度数 据 ， 周 期 为 12， 可 以 创建 虚拟 变量 Jan，lFeb，…，|IDec， 其 中 一 月 的 虚拟 变量 JUan 定 义 如 下 : 
和 册 当 1 = Jan 时 
0， 当 上 天 Jan 时 
对 时 间 序 列 建立 模型 y=Bjanljan+BFeplFeb+.…+BDeclDec，BM 代 表 第 M 个 月 对 时 间 序 列 的 影响 ， 通 过 拟 合 模型 ， 可 以 计算 出 BM 的 估计 量 。 
如 果 模 型 中 含有 常数 项 ，y=cons+BjanlJan+BFeblFeb+…+BNovINov， 则 只 需 创建 -1 个 季节 性 虚拟 变量 ，cons+BM 代 表 第 M 个 月 对 时 间 序 列 的 影响 ，cons 代 表 最 后 一 个 月 对 时 间 序 列 的 影响 。 


例 17.16: 数据 集 ex.airline1990_2013 中 包含 了 从 1990 年 1 月 到 2013 年 12 月 美国 国内 航线 旅客 数量 。PASSENGERS 序 列 的 时 序 图 如 图 17.83 所 示 。 











1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 
rmonth 


1990 “1992 2014 


图 17.83” 例 17.16 中 序列 PASSENGERS 的 时 序 图 


首先 重点 分 析 数 据 的 前 半 段 ， 序 列 PASSENGERS 含 有 明显 的 确定 性 季节 因素 和 时 间 趋 势 。 因 此 ， 可 以 创建 季节 性 虚拟 变量 和 趋势 变量 。 代 码 如 下 : 





data work.Airl1990 2000; 

Set ex.airlinel990 2013 (where= (month<="'31Dec2000'9g)); 
array seasons{*} monl-monll1; 

retain monl-monll . time 0; 
timet+l1; 
if monl=.then do i=1 to 11; 
seasons{[i]=0; 

















end; 

if month (month) <12 then do; 
seasons [month (month) ]=1; 
output; 
seasons [month (month) ]=0; 

















end; 
else output; 
drop i; 

run; 


季节 性 虚拟 变量 示例 如 图 17.84 所 示 。 
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图 17.84 ”数据 集 work.Air1990_2000 部 分 内 容 


和 分 析 确 定性 趋势 的 时 间 序 列 一 样 ， 我 们 调用 ARIMA 过 程 进行 建 模 ， 并 把 虚拟 变量 mon1-mon11 和 时 间 趋 势 变 量 time 作 为 输入 变量 引入 模型 中 。 代 码 如 下 : 





proc arima data=work.Air1990 2000; 
identify var=passengers 
Crosscorr=( time monl mon2 mon3 mon4 
mon5 mon6 mon7 mon8 








mon9 mon1l10 mon1l11 ) noprint; 
estimate input=(time monl mon2 mon3 mon4 
mon5 mon6 mon7 mon8 





mon9 mon10 monl1 ) 
ml; 
quit; 


得 出 的 参数 估计 和 诊断 如 图 17.85 和 图 17.86 所 示 。 


估计 Re t 值 Pr> 轩 | 洒 后 | 变量 


| 




















30335.1 | 495.84089 | 61.18 | <,0001| 0 0 

139.99779 | 329763 | 42.45 | < 0001| 0 | time 0 
NURMZ = 0 | 1 | 5 | 二 人 OO 0 | mont1 | 
NUMS -3767.8 | 613.92598 | -614 | <0001| 0 | monz 0 
NUM4 3470.4 | 613.75759 | 565 | <0001| 0 | mon3 0 
NUMGS 1519.2 | 014 B069, | 251 | O0101 0 | mend U 
NUM6 22942 | 613.47404 | 374 | 00002 | 0 | mon5 0 
NUMT7 4338.4 | 61335881 | 7.07 | <.0001| 0 | mon6 0 
NUMSS DHyg.4 613.26129 .3 <.0001 0 | mon U 
NUM9 6356.7 | 613.18149 | 1037 | < 0001| 0 | mong8 0 
NUwio -1307.6 61311942 | -213 00329| 0| mone 0 
NUM1 | 1838.9 | 613.07508 | 300 | 0.0027| 0 | mon10 0 
NUMIZ | -486.54766 | 613.04847 | -0.79 | 0.4274 | 0 | mon11 0 


季节 虚拟 变量 和 趋势 变量 基本 都 是 显著 的 ， 但 是 模型 没有 通过 白 噪 声 检 验 ， 说 明 序 列 中 的 自 相关 关系 没有 被 提取 出 来 。 因 此 ， 需 要 在 模型 中 引入 合适 的 自 回归 项 或 移动 平均 项 ， 例 如 ， 考 虑 对 残 差 序列 
建 YAR (1) 模型 。 代 码 如 下 : 


proc arima data=work.Air1990 2000; 
identify var=passengers 
crosscorr=( time monl mon2 mon3 mon4 
mon5 mon6 mon7 mon8 
mon9 mon10 mon11 ) noprint; 
estimate input=(time monl mon2 mon3 mon4 
mon5 mon6 mon7 mon8 
mon9 mon10 mon11 ) p=1 ml; 














its 


图 17.85 ” 例 17.16 中 序列 PASSENGERS 引 入 外 部 变量 的 模型 参数 估计 报表 


PASSENGERS 





男 一 种 考虑 确定 性 季节 性 因素 的 方法 是 通过 创建 三 角 函 数 变 量 ， 并 将 这 些 三 角 遂 数 变 量 作为 输 


变量 引入 模型 中 。 


“PASSENGERS” 的 残 差 相关 诊断 
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图 17.86” 例 17.16 中 序列 PASSENGERS 引 入 外 部 变量 的 模型 残 差 诊 断 
在 这 个 例子 中 ， 可 以 创建 周期 为 4 的 三 角 遂 数 变 量 S4 和 和 C4， 以 及 周期 为 12 的 三 角 函 数 变 量 S12 和 C12。 代 码 如 下 : 


data work.airl990 2000; 

set work.Air1990 2000; 

retain twopi . time 0; 

if twopi=.then twopi=2*constant ("pi"); 

timet+l1; 

s4=sin (twopi*time/4); 

C4=cos (twopi*time/4); 
Ss12=sin (twopi*time/12); 
C12=cos (twopi*time/12); 
format s4 c4 S12 cl2 comma6.4; 
drop twopi ， 


~ 一 








新 生成 的 数据 集 示例 如 图 17.87 所 示 。 
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图 17.87 加 入 三 角 函 数 变量 的 数据 集 work.air1990_2000 部 分 内 容 
然后 和 前 面 运用 季节 性 虚拟 变量 一 样 ， 将 S4、C4、S12 和 C12 作 为 输入 变量 引入 时 间 序 列 中 。 这 里 就 不 敖 述 。 
17.4.2 ”随机 季 书 模型 
随机 季节 模型 是 对 季节 性 时 间 序 列 中 不 同 周期 上 同一 位 置 点 之 间 的 随机 季节 因素 拟 合 的 模型 ， 是 Box-Jenkins 方 法 中 的 季节 模型 。 


以 序列 PASSENGERS 为 例 ， 季 节 效 应 意味 着 某 一 特定 月 份 的 观测 值 之 间 是 相关 的 ， 例 如 ， 某 一 个 4 月 的 观测 值 与 以 往 4 月 的 观测 值 是 相关 的 。 假 设 第 t 个 观测 值 yt 就 是 4 月 的 值 ， 那 么 可 以 通过 如 下 形式 的 
模型 将 该 观测 值 yt 与 以 往 4 月 的 观测 值 联系 起 来 : 


PDP(B) Vs yO(BN)a, 


其 中 S=12，7=1-2, %2) fe(8) 分 别 是 B> 的 P 次 和 Q 次 多 项 式 ，att 为 误差 项 。 类 似 地 ， 模 型 ww-0094 可 以 用 来 把 当前 3 月 的 特征 和 以 往 3 月 的 观测 值 相 联系 ， 依 此 类 推 ， 对 于 12 个 月 中 的 每 个 月 都 可 以 这 
样 做 。 并 且 ， 假 设 在 这 些 月 度 模型 中 所 含 参数 中 和 @ 对 每 个 月 都 近似 相等 ， 这 种 假设 是 合理 的 。 

现在 这 些 模型 中 的 误差 分 量 at，cot-1，… 一 般 是 相关 的 。 例 如 ，1995 年 4 月 的 旅客 总 数 和 以 往 4 月 的 旅客 总 数 相 关 ， 与 此 同时 它 也 会 和 1995 年 3 月 、2 月 、1 月 等 月 的 总 数 相关 。 由 此 ， 我 们 可 以 料想 ot 与 
ot-1 相 天， 还 与 at-2 相 关 ， 等 等 。 因 此 ， 为 了 在 建 模 中 考虑 这 种 联系 ， 我 们 引入 第 二 个 模型 


加 := 
$B) Yor0(B)s, 
其 中 ，gst 是 随机 干扰 ， 中 (B) 和 6 (B) 分 别 是 B 的 p 次 和 q 次 多 项 式 ， 最 终 ， 得 到 模型 
可 志和， ps 
p(B)Pp(B )Y VsyF0(B)O(B )5， 


该 模型 记 为 ARIMA (P，d,，q) (P，D，Q) S， 也 称 为 Box-jJenkins 季 节 模 型 。 其 中 : 

" Pb、d、q 有 是 非 季 节 因 素 模型 的 阶 数 。 

` P 称 为 季节 自 回归 项 的 阶 数 ，Q 称 为 季节 移动 平均 项 的 阶 数 ，D 是 季节 差分 的 阶 数 ，S 是 周期 长 度 ， 也 就 是 季节 差分 的 步 长 。 

在 建立 季节 ARIMA (p, d, 9q) (P，D，Q) S 模 型 时 ， 需 要 首先 识别 上 面 提 到 的 这 6 个 参数 P、d、q 和 P、D、Q， 然 后 再 进行 参数 估计 和 诊断 检验 等 。 
ARIMA (0，0,， 0) (1，1，1) 12 模 型 的 一 个 特例 表示 为 ， 只 包含 12 阶 季节 自 回归 项 和 12 阶 移动 平均 项 : 

(1-®D1BY) (1-B2) y=00+ (1-9iB12) s, 


用 ARIMA 过 程 拟 合 该 模型 的 方法 如 下 : 





proc arima data=inputdata; 
identify var=y(12) noprint; 
estimate p=(12) q=(12) ml; 








run; 

ARIMA (1，1，1) (1，1，1) 12 模 型 的 一 个 特例 为 : 

(1-9D1BD (1-®1BY) (1-B2) (1-B!) y=00+ (1-01B!) (1-@1B!) s， 
或 者 ， 等 价 的 表示 为 

Zr 中 12t1- 中 12t12 十 中 1 中 1zt13 二 00+etr01etc1-O1ist12 十 01O1st13 
ZYyeye ye 12t yt13 

用 ARIMA 过 程 拟 合 该 模型 的 方法 如 下 : 


proc arima data=inputdata; 
identify var=y(1 12) noprint; 
estimate p=(1) (12) q=(1) (12) ml; 
run; 











用 ARIMA 过 程 拟 合 只 包含 一 阶 移动 平均 项 和 12 阶 季节 移动 平均 项 的 ARIMA (0，1，1) (0，1，1) 12 模 型 的 方法 如 下 : 


proc arima data=inputdata; 
identify Var=y(1 12) noprint; 
estimate q=(1) (12) ml; 

run; 











一 般 的 ARIMA (p, d,9) (P，D，Q) s， 展开 来 可 以 写成 : 
(DiBL-G2B -DBP) (1-®1B!l-®B-BpBT) (1-BS) 2 (1-B) © (yrp) 
= (1-01B'-0,B’-…-0.B!) (1-1B\'-@,B”…-Q0BN) st 
更 一 般 的 Box-Jenkins 季 节 模 型 ， 可 以 将 确定 性 时 间 趋 势 和 确定 性 季节 因素 都 考虑 进去 ， 表 示 为 : 
(1-D1BLG2B2…-BP) (1-DIBI-D2B2…-ppBP) (yf (t) -g (t) ) 
二 (1-61B -02B“……-6JB9) (1-G1B -9>B -GoBQ) si 
其 中 ,f(t) 表示 确定 性 季节 趋势 函数 ，g (t) 表示 确定 性 季节 因素 函数 。 


17.4.3 ”季节 性 诊断 


[=| 
XE 


然而 ， 在 我 们 开始 研究 一 个 时 间 序 列 的 时 候 ， 通 常 并 不 知道 它 是 否 存 在 季节 性 ， 也 不 知道 它 的 周期 是 多 少 。 因 此 ， 拿 到 一 个 时 间 序 列 ， 除 了 要 看 它 是 否 是 平稳 序列 之 外 ， 也 要 分 析 它 是 否 存 在 季节 
素 ， 以 及 周期 为 多 长 。 诊 断 季节 性 因素 的 方法 主要 有 两 种 ， 一 种 是 通过 观察 序列 的 自 相 关系 数 图 ， 一 种 是 运用 SPECTRA 过 程 对 序列 进行 傅 里 叶 分 解 ， 并 从 中 得 出 序列 的 周期 信息 。 


对 于 PASSENGERS 序 列 ， 我 们 来 观察 它 的 自 相关 系数 图 ， 如 图 17.88 所 示 。 
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图 17.88 PASSENGERS 序 列 的 自 相关 系数 图 


在 图 17.88 中 ， 我 们 看 到 在 延迟 为 12 的 地 方 ， 自 相关 系数 出 现 峰 值 ， 也 就 是 说 ， 每 隔 11 个 时 段 ， 观 测 之 间 具 有 显著 的 相关 关系 ， 这 就 是 暗示 了 序列 中 可 能 存在 周期 为 12 的 季节 性 因素 。 


在 进行 了 向 后 12 阶 差分 后 ， 延 迟 为 12 的 自 相 关系 数 峰值 消失 ， 落 在 了 2 倍 标准 误差 范围 以 内 ， 说 明 进 行 差 分 可 以 消除 季节 因素 ， 如 图 17.89 所 示 。 





图 17.89 ”PASSENGERS 序 列 进行 12 阶 差分 后 的 自 相 关 图 


运用 SPECTRA 过 程 检查 数据 是 否 具 有 周期 性 ， 基 本 语法 如 下 : 


PROC SPECTRA DATA= 数 据 集 OUT= 输 出 数据 集 
COEF P S < 其 他 选项 >; 
VAR 分 析 变 量 ; 


WEIGHTS PARZEN | BART| TUKEY| TRUNCAT| QS <n m>; 












































RUN; 


其 中 ，SPECTRA 过 程 不 输出 任何 报表 ， 选 项 P 指 定 系 统 将 周期 图 参数 输出 到 输出 数据 集中 ， 周 期 图 参数 存储 为 变量 P_xx， 例 如 P_01 表 示 第 一 个 分 析 变 量 的 周期 图 参数 ;选项 S 指 定 系统 将 谱 密度 参数 输 
出 到 输出 数据 集中 ， 谱 密度 参数 存储 为 变量 S_xx， 例 如 S_01 表 示 第 一 个 分 析 变 量 的 谱 密 度 参数 ; COEF 指 定 系 统 将 傅 里 叶 系数 输出 到 输出 数据 集中 ，WEIGHT 语 句 决 定 了 对 周期 图 进行 平滑 的 方法 。 


SPECTRA 过 程 的 原理 涉及 时 间 序 列 分 析 的 另 一 种 方法 ， 这 里 不 展开 讲 ， 只 结合 例子 介绍 如 何 根据 ?PECTRA 过 程 输出 的 结果 对 序列 的 周期 性 进行 判定 。 
例 17.17: 运用 SPECTRA 过 程 检查 数据 集 work.air1990 2000 中 PASSENGERS 序 列 的 周期 性 。 


示例 代码 如 下 : 





proc spectra data=work.air1990 2000 out=work.periodogram 
pS’; 
var passengers; 
weights parzen; 
run; 
proc sgplot data=work .periodogram (where= (2<period<=20) ) ， 
series x=period Y=-S 01/ 
ineattrs=graphprediction (pattern=1 color=black) 
legendlabel="Parzen Kernel" name="seriesl"; 
refline 2.4/axis=x 
ineattrs=graphprediction (pattern=2 color=lightblue thickness=1) 
legendlabel="Period 2.4" name="series2"; 
refline 4/axis=x 
lineattrs=graphprediction (pattern=2 color=blue thickness=3) 
legendlabel="Period 4" name="series3"; 
refline 12/axis=x 
lineattrs=graphprediction (pattern=2 color=darkblue thickness=5) 
legendlabel="Period 12" name="series4"; 
keylegend "seriesl" "series2" "series3" "series4"/ 
location=outside position=bottom; 









































































































































run; 





由 于 SPECTRA 过 程 只 输出 数据 集 ， 为 了 更 直观 地 观察 到 PASSENGERS 序 列 的 周期 ， 我 们 运用 SGPLOT 过 程 作出 PASSENGERS 序 列 的 谱 密度 图 (这 里 的 3 个 REFLINE 语 句 都 是 根据 观察 谱 密 度 图 后 作 
出 ) ， 输 出 结果 如 图 17.90 所 示 。 
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图 17.90 ”序列 PASSENGERS 的 谱 密 度 图 


在 Period=12、Period=40Period=2.4 处 ， 谱 密度 参数 存在 极 值 ， 并 且 在 Period=12 处 ， 极 值 比 其 余 极 值 大 。 因 此 ， 可 以 认为 PASSENGERS 序 列 中 的 主要 周期 为 12， 和 自 相 关 遂 数 判断 出 的 结 
致 。 


至 此 ,已 经 判断 出 序列 PASSENGERS 存 在 周期 为 12 的 季节 性 因素 ,但 是 要 判断 这 个 季节 性 因素 是 适合 用 确定 性 季节 因素 来 处 理 ， 还 是 运用 随机 季节 模型 ( 即 进行 季节 差分 ) 来 处 理 ， 没 有 明确 的 判断 标 
准 ， 在 进行 建 模 的 时 候 可 以 都 进行 尝试 ， 可 建立 多 个 备 选 


在 前 面 的 介绍 中 ， 我 们 知道 用 ADF 检 验 法 可 以 进行 平稳 性 检验 ， 事实 上 ， 它 也 可 以 用 来 检验 是 否 需 要 季节 性 差分 ， 称 为 季节 性 ADF 检 验 。 和 平稳 性 检验 类 似 ， 季 节 性 ADF 检 验 的 原 假设 为 需要 进行 季节 
性 差分 ， 备 择 假 设 为 不 需要 进行 季节 差分 。 


例 17.18: 检查 序列 PASSENGERS 是 否 需 要 进行 季节 差分 。 


示例 代码 如 下 : 





proc arima data=work.airl1990 2000; 
identify var=passengers stationarity=(adf=(0 1 2)); 
identify var=passengers stationarity=(adf=(0 1 2) dlag=12); 
run; 















































在 上 述 程序 中 ， 第 一 个 IDENTIFY 语 句 用 来 进行 平稳 性 检验 ; 第 二 个 IDENTIFY 语 句 ， 在 选项 STATIONARITY 中 增加 了 选项 DLAG=12， 表 示 检 验 是 否 需要 进行 步 长 为 12 的 季节 性 差分 ， 来 看 检验 结果 。 
ADF 单 位 根 检验 表示 序列 是 趋势 平稳 的 ， 如 图 17.91 所 示 。 


季节 性 ADF 检 验 显示 不 能 拒绝 需要 进行 季节 性 差分 的 原 假设 ， 如 图 17.92 所 示 。 


闫 型 汝 语 Rho Pr<Rho Tau Pr<Ta FE Pr>F 
零 鸭 伯 | 0 -01741 | 06420 | -017 | 06243 


二 此 


0.1002 | 07046 | 013| 07230 
2 0.1179 | 07088 | 0.19 | 0.738#8 
单 均 伯 0 | -32391 0.0039 | -3.61 0.0068 660 0.0010 
-14.7311 | 00378 | -2.78 | 00641 | 402 00873 
a | -10.3859 0.1158 | -2.19 02106 | 2.53 | 0.d4271 
扑 势 0 | -76.d4420 | 00004 -7.23 | <0001 26.16 0.0010 
| 1 -72.0909 00004 -5.89 | <.0001 | 17.35 0.0010 
2 -8B2.8180 | 00004 -550 | <0001 | 15.14 | 0.0010 








= 





图 17.91 例 17.18 中 序列 PASSENGERS 的 单位 根 检 验 报表 
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图 17.92” 例 17.18 中 序列 PASSENGERS 的 季节 性 单位 根 检 验 报表 


例 17.19: 在 例 17.16~ 例 17.18 中 ， 我 们 分 别 通过 自 相关 函数 图 、SPECTRA 过 程 及 ADF 平 稳 性 检验 、 季 节 性 ADF 检 验 ， 得 知 PASSENGERS 序 列 具 有 趋势 性 ， 且 含有 周期 为 12 的 季节 性 因素 ， 同 时 还 创建 
了 三 角 函 数 变 量 S4、C4、S12、C12， 季 节 虚 拟 变量 MON1-MON11， 以 及 趋势 变量 TIME， 存 储 在 数据 集 work.air1990 2000， 基 于 以 上 分 析 现 在 对 PASSENGERS 序 列 建立 模型 。 


Box 和 Jenkins 针 对 旅客 数量 提出 了 经 典 的 ARIMA (0，1，1) (0，1，1) 12 模 型 ， 并 且 只 在 模型 中 包含 了 一 阶 MA 项 和 12 阶 MA 项 ， 我 们 来 看 该 模型 的 拟 合 效果 。 代 码 如 下 : 


oc arima data=work.air1990 2000; 
identify var=passengers (1 12) noprint; 
estimate qq=(1) (12) ml; 


[el 








run; 





模型 的 参数 都 是 显著 的 ， 如 图 17.93 所 示 。 








阳 似 
估计 标准 误差 et 值 Pr> 川 | 靖 后 
14.55640 | 36.37734 | 0.40 | 0.6890 | 0 
0.36022 | 0.08506 | 419 | <000| 1 


0.55250 | Oo681 | S71 < 0001 lz 





图 17.93 例 17.18 中 ARIMA (0，1，1) (0，1，1) 12? 模 型 参数 估计 报表 


残 差 的 相关 诊断 显示 延迟 3、4、5、6 没 有 通过 白 噪声 检验 ， 模 型 拟 合 不 足 ， 仅 在 模型 中 考虑 一 阶 MA 项 和 12 阶 MA 项 是 不 够 的 ， 如 图 17.94 所 示 。 


PASSENGERS(1 12) ”的 残 差 相关 诊断 
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图 17.94 例 17.18 中 ARIMA (0, 1，1) (0，1，1) 1> 模 型 残 差 诊断 


经 过 多 次 尝试 ， 我 们 在 模型 中 添加 了 一 阶 AR 项 ， 即 模型 变 成 了 ARIMA (1，1，1) (0，1，1) 12。 代 码 如 下 : 





proc arima data=work.airl990 2000 plots=all; 
identify var=passengers (1 12) noprint; 
estimate p=1 q=(1) (12) ml; 
forecast lead=24 id=month interval=month; 
run; 











参数 估计 和 诊断 检验 如 图 17.95 和 图 17.96 所 示 。 所 有 的 参数 都 是 显著 的 ， 并 且 通 过 了 白 噪声 检验 。 
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AR1.1 | 0.51775 | 0.12303 | 421 <.0001| 1 
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图 17.95 ” 例 17.18 中 ARIMA (1，1，1) (0，1，1) 12 模 型 参数 估计 报表 


“PASSENGERS(1 12) ”的 残 差 相关 诊断 
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图 17.96 例 17.18 中 ARIMA (1，1，1) (0，1，1) 1 模型 残 差 诊断 


模型 信息 如 图 17.97 所 示 。 
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图 17.97 例 17.18 中 ARIMA (1，1，1) (0，1，1) 15 模 型 信息 
模型 可 以 写成 如 下 形式 : 
(1-0.51775B) (1-BI2) (1-B)  (y-14.37511) = (1-0.87999B) 〈1-0.54245B12) es， 


预测 效果 如 图 17.98 所 示 。 
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除了 ARIMA 过 程 ， 


，1) 《0，1，1) 12 模 型 预测 效果 图 
我 们 在 17.3 节 中 ,介绍 了 ESM 过 程 也 可 以 对 带 季 节 和 趋势 的 时 间 序 列 进行 建 模 ,， 读 者 可 以 自行 尝试 。 


17.5 ”本 章 小 结 


头 
何 运用 FORECAST 过 程 、AUTOREG 过 程 和 ESM 过 程 建立 趋势 时 间 序 列 模型 


本 章 涵盖 了 时 间 序 列 预测 的 基础 知识 和 用 SAS 进 行 时 间 序 列 分 析 的 一 般 步骤 和 常用 技术 。 首 先 介 绍 了 时 间 序 列 的 概念 、 数 字 特 征 ， 以 及 常见 的 平稳 模型 和 非 平稳 模型 ， 然 后 结合 SAS 的 ARIMA 过 程 ， 介 

绍 了 运用 Box-Jenkins 方 法 对 平稳 序列 建 模 的 基本 步骤 。 在 此 基础 上 继续 介绍 了 如 何 运 用 ARIMA 过 程 进 行 单位 根 检验 判断 序列 的 平稳 性 ， 以 及 对 趋势 时 间 序 列 进行 建 模 的 方法 。 此 外 ， 还 通过 例子 介绍 了 如 
型 。 本 章 最 

旅客 人 数 的 实例 ， 介 绍 了 运用 ARIMA 过 程 建立 季节 随机 模型 的 方法 。 


本 章 最 后 介绍 了 运用 自 相 关 函 数 图 和 SPECTRA 过 程 对 时 间 序 列 的 周期 进行 探索 的 方法 ， 并 结合 1990 年 到 2000 年 美国 国内 航班 


第 18 草 ”SAS 数据 挖掘 的 一 般 流程 


前 面 介绍 了 统计 分 析 中 常见 的 概念 与 方法 。 在 讨论 这 些 统计 方法 的 过 程 中 ， 还 引入 了 一 些 数据 分 析 的 例子 。 这 些 例 子 中 要 解决 的 问题 是 明确 的 ， 大 部 分 数据 几乎 不 需要 额外 的 处 理 就 可 以 直接 用 来 作为 
分 析 的 输入 ， 显 然 这 是 比较 理想 的 情况 。 在 实际 使 用 中 ， 如 何 从 一 个 商业 需求 出 友 ， 明 确 需要 解决 的 问题 ， 准 备 所 需要 的 数据 ， 选 择 适 当 的 分 析 方 法 ， 往 往 是 一 个 探索 和 反复 的 过 程 。 由 于 一 个 完整 的 数据 
挖 扎 过 程 会 包含 数据 分 析 中 大 部 分 常见 的 步骤 和 技术 ， 所 以 本 章 将 通过 讨论 数据 挖掘 的 一 般 步骤 ， 帮 助 读者 掌握 数据 分 析 的 一 般 过 程 。 

18.1 SAs 数 据 挖掘 概述 


所 谓 的 数据 挖掘 ， 是 指 通过 对 大 量 的 数据 进行 选择 、 探 索 与 建 模 ， 来 揭示 包含 在 数据 中 以 前 不 为 人 知 的 模式 或 规律 ， 从 而 为 商业 活动 或 科学 研究 提供 帮助 和 服务 。 
数据 挖掘 中 有 以 下 两 个 重要 的 类 别 : 


有 监督 分 析 (SupervisedAnalysis) 


. 无 监督 分 析 (Unsupervised Analysis) 


有 监督 分 析 一 般 涉及 一 个 或 者 多 个 目标 变量 。 因 此 ， 有 监督 分 析 属于 目标 导向 (Goal Directed) 型 分 析 。 常 见 的 有 监督 分 
模 之 后 ， 根 据 初始 模型 的 结果 ， 结 合 历史 数据 ， 对 初始 模型 进行 调整 、 改 进 ， 从 而 得 到 新 的 模型 。 一 般 来 说 ， 这 个 

相反 ， 无 监督 分 析 往 往 没有 明确 的 目标 变量 。 因 此 ,无 
征 ， 例 如 是 否 打 国际 长 途 、 


析 包 括 判别 分 析 以 及 预测 等 ， 往 往 是 根据 分 好 类 的 历史 数据 来 进行 建 模 的 。 建 
人 过程 不 是 一 步 完 成 的 ， 是 一 个 反复 的 过 程 。 
| 人 趟 又 涌 
LI 
是 否 经 常 进行 国内 长 途 通话 、 每 次 i 
实际 情况 进行 进一步 考察 


#， 这 就 属于 无 监督 分 析 的 范畴 。 


督 分 析 也 称 数据 驱动 分 析 (Data Driven) 。 在 某 些 情形 下 ， 甚 至 没有 分 析 结 果 好 坏 的 评判 标准 。 例 如 ， 某 电信 公司 希望 了 解 其 手机 用 户 的 特 
通话 的 时 间 长 度 等 。 在 研究 这 些 特 征 后 ， 我 们 可 以 将 手机 用 户 分 成 若干 组 ， 但 是 分 类 方法 是 否 合 理 、 


是 否 存在 更 好 的 方法 ， 还 需要 根据 业务 的 


数据 挖掘 的 应 用 日 益 广泛 。 例 如 ， 在 商业 应 用 中 ， 现 在 几乎 每 一 个 银行 都 有 信用 评分 系统 对 信用 卡 的 发 放 或 信用 额度 的 申请 进行 管理 ， 并 且 大 部 分 银行 拥有 自己 的 反 欺 诈 系统 ， 用 于 发 现 和 预防 恶意 的 
欺诈 行为 。 在 社会 管理 中 ， 对 犯罪 活动 的 有 效 识别 和 预警 、 各 种 因素 对 环境 影响 的 判定 和 度量 等 都 是 数据 挖 握 的 例子 。 


18.2 ”确定 业务 问题 和 数据 准备 


18.2.1 ”确定 业务 问题 


进行 数据 挖掘 的 第 一 步 ， 是 要 确定 需要 解决 的 业务 问题 。 解 决 什么 问题 、 首 先 要 解决 哪些 问题 、 在 什么 范围 内 解决 多 大 规模 的 问题 ， 都 是 在 数据 挖掘 初期 需要 考虑 的 。 合 理 定义 需要 解决 的 问题 是 一 个 
商业 项 目 成 功 的 基础 。 在 确定 商业 问题 的 过 程 中 ， 涉 及 的 主要 步骤 如 下 : 





' 检查 数据 的 可 行 性 。 
在 进行 商业 项 目 时 ， 我 们 必须 要 对 客户 的 业务 有 一 定 的 了 解 ， 每 个 商业 领域 都 有 其 独特 的 一 面 ， 理 解 业务 的 现状 和 对 未 来 的 期 望 ， 才 可 能 确定 数据 挖掘 项 目的 目标 和 优先 级 。 


客户 往往 会 对 自己 的 业务 活动 中 存在 的 问题 和 要 求 有 一 定 的 认识 ,一 般 情况 下 ， 这 些 认识 对 分 析 人 员 理 解 实际 业务 会 有 一 定 的 帮助 ， 分 析 人 员 应 在 理解 实际 业务 的 基础 上 ， 对 这 些 问题 和 要 求 做 出 清晰 
的 定义 和 表述 ， 并 与 相关 人 员 达 成 共识 。 


在 确定 了 商业 问题 后 ， 通 常 就 要 了 解 是 否 可 以 获取 相关 的 数据 。 这 时 需要 考察 现存 的 数据 仓库 或 者 数据 集 市 系统 、 交 易 系 统 以 及 存在 于 其 他 外 部 系统 中 的 数据 等 。 现 有 的 数据 结构 如 何 、 是 否 具备 该 数 
据 、 当 前 的 数据 是 否 包含 了 足够 的 信息 ， 这 些 都 将 影响 问题 解决 的 效果 。 


为 了 便于 讨论 数据 挖掘 的 完整 过 程 ， 考 虑 使 用 一 个 示例 贯穿 本 章 。 假 设 要 解决 的 业务 问题 如 下 : 


X 公 司 经 过 调查 发 现 ， 在 A 地 区 小 商品 市 场 砾 达 ， 微 型 /小 型 商铺 众多 ， 这 些 商 铺 经 常会 对 短期 资金 有 需求 。 但 是 传统 大 型 银行 的 贷款 业务 主要 面向 企业 用 户 ， 并 且 手 续 繁多 ， 微 型 /小 型 商铺 (多 数 是 以 
家 庭 为 单位 经 营 ) 往往 很 难 从 大 型 银行 得 到 商业 贷款 ， 而 且 整 个 贷款 申请 的 处 理 时 间 也 相对 较 长 。 针 对 这 一 现状 ，X 公 司 开展 了 针对 上 述 个 人 商铺 或 小 型 商铺 的 贷款 业务 。 经 过 一 段 时 间 的 尝试， 该 项 业务 的 
回报 率 相对 比较 高 。 但 也 存在 一 些 问题 ， 主 要 有 : 


. 申请 人 数 上 日益 增多 。X 公 司 已 经 无 法 通过 人 工 处 理 的 方式 对 贷款 申请 进行 逐一 处 理 。 


:历史 贷款 中 不 良 贷 款 比 例 高 达 20%。 
18.2.2 ”数据 准备 


前 面 已 经 确定 了 要 分 析 的 问题 ， 我 们 对 需要 的 数据 有 了 一 定 的、 总 体 上 的 认识 。 接 下 来 ， 要 进一步 检查 数据 ， 看 数据 是 否 符合 数据 挖掘 的 要 求 ， 我 们 将 这 一 个 过 程 称 为 数据 准备 。 这 一 过 程 主要 包括 以 
下 几 个 步骤 : 


: 创建 数据 挖 气 的 环境 。 
“ 观察 并 验证 数据 。 
准备 数据 。 


从 数据 的 来 源 来 看 ， 数 据 可 以 分 为 内 部 数据 与 外 部 数据 。 顾 名 思 义 ， 它 们 分 别 指数 据 来 源 于 组 织 内 部 还 是 组 织 外 部 。 例 如 ， 示 例 中 ，X 公 司 的 客户 基本 信息 、 贷 款 发 放 记录 、 客 户 的 还 款 交 易 等 ， 均 为 内 
部 数据 。 为 了 使 得 模型 更 加 准确 ， 有 时 需要 将 当地 的 人 口 结 构 、 人 均 收 入 、 经 济 增长 速度 等 因素 也 考虑 进去 ， 但 这 些 数 据 并 非 来 自 于 X 公 司 内 部 ， 因 此 属于 外 部 数据 的 范畴 。 


创建 数据 挖掘 环境 的 首要 工作 是 对 数据 源 进行 确定 。 在 确定 了 数据 源 之 后 ， 接 下 来 的 工作 是 考虑 如 何 访问 和 获取 这 些 数据 源 中 的 数据 。 在 实际 操作 时 ， 数 据 可 能 人 存在 于 不 同 的 操作 系统 下 ， 或 者 存在 于 
不 同 的 数据 库 或 数据 仓库 中 ， 而 且 数 据 的 格式 一 般 来 说 也 是 不 一 样 的 。 数 据 挖掘 的 数据 环境 一 般 有 3 种 : 


* 将 数据 存储 在 原 位 置 ， 待 需要 时 再 进行 访问 。 

` 将 数据 单独 存储 。 

“ 前 面 两 种 的 混合 。 

如 果 条 件 允 许 ， 理 想 状态 下 应 将 数据 挖掘 需要 的 数据 单独 存储 。 

在 创建 完 合适 的 数据 挖掘 环境 后 ， 下 一 步 工 作 是 检查 并 验证 数据 ， 具 体 包 括 以 下 3 个 方面 的 内 容 : 


* 检查 数据 的 完备 性 。 所 谓 的 完备 性 指 的 是 数据 挖掘 需 要 用 到 的 所 有 数据 都 可 以 得 到 。 有 的 数据 可 能 没有 办 法 直接 得 到 ， 需 要 通过 若干 个 数据 整合 处 理 生成 。 完 备 性 不 满足 不 仅 对 数据 挖掘 效果 有 影 
响 ， 在 菜 些 情形 下 ， 甚 至 会 影响 菜 种 数据 挖掘 方法 的 可 行 性 。 


“ 检查 数据 的 相关 性 。 检 查 数 据 的 相关 性 实际 上 是 对 现 有 数据 的 一 个 验证 过 程 。 可 以 将 现 有 的 数据 与 目标 联系 起 来 考虑 ， 确 定 每 一 个 数据 是 否 都 是 相关 的 (没有 宛 余 ) 。 

. 确保 数据 的 格式 。 数 据 中 的 某 些 部 分 可 能 会 过 于 完 长 ， 对 此 ， 在 验证 数据 的 时 候 可 能 需要 考虑 简化 其 复杂 性 。 此 外 ， 还 应 该 考虑 是 否 需要 提供 额外 的 数据 ， 如 汇总 列 等 。 
检查 并 验证 数据 后 ， 就 是 准备 数据 了 ， 此 过 程 主要 包括 以 下 3 个 方面 : 

. 清理 数据 。 

“去除 宛 余 列 。 

. 保证 数据 的 一 致 性 。 


这 个 阶段 的 工作 是 要 对 数据 的 合理 性 做 出 判定 。 例 如 ， 数 值 是 否 在 合理 的 范围 内 。 假 设 数据 集中 的 某 一 列 代表 客户 的 信用 记录 长 度 (单位 : 年 ) ， 另 一 列 代表 客户 的 年 龄 ， 若 发 现 客户 信用 记录 长 度 大 
于 客户 年 龄 ， 那 么 就 表示 这 两 个 值 中 至 少 有 一 个 值 是 不 合理 的 。 如 果 客 户 的 真实 年 龄 应 该 是 介 于 18 岁 与 55 岁 之 间 ， 那 么 我 们 还 需要 验证 年 龄 列 中 是 否 存 在 上 述 范 围 以 外 的 值 。 对 数据 取 值 合理 性 的 验证 有 可 


能 是 一 个 复杂 的 过 程 ， 实 际 中 一 般 采 用 查看 统计 量 的 方法 来 处 理 ， 例 如 ， 通 过 查看 数据 的 均值 、 最 大 值 、 最 小 值 来 判断 列 中 是 否 存在 不 符合 规定 的 数据 。 


由 于 数据 可 能 来 自 于 不 同 的 地 方 ， 多 个 数据 之 间 的 信息 可 能 会 重 熙 ， 因 此 ， 对 于 那些 信息 重 苹 的 数据 集 就 没有 必要 襄 括 整个 数据 集 了 ， 这 也 是 我 们 要 对 数据 去 除 元 余 的 原因 之 一 。 此 外 ， 对 于 不 同 层级 
的 汇总 数据 ， 它 们 之 间 的 信息 也 可 能 是 相互 包含 的 ， 这 时 候 可 以 仅 保 留 与 目标 相关 的 部 分 汇总 数据 集 。 


在 数据 清理 工作 中 ， 还 要 保证 数据 的 一 致 性 ， 包 括 变量 的 单位 前 后 是 一 致 的 、 变 量 的 意义 前 后 没有 改变 等 。 例 如 ， 有 的 数据 集中 变量 Revenue 是 以 亿 为 单位 的 ， 而 有 的 数据 集中 该 变量 是 以 自 万 为 单位 
的 ， 这 就 是 前 后 不 一 致 又 如 ， 有 的 数据 集中 变量 Profit 表 示 的 是 税 后 利润 ， 而 另外 一 些 数据 集中 该 变量 表示 的 是 税 前 的 利润 ， 这 也 属于 前 后 不 一 致 。 


假设 我 们 根据 要 解决 的 业务 问题 将 X 公 司 业务 系统 中 的 数据 进行 了 抽取 和 清洗 ， 得 到 了 发 放贷 款 的 历史 数据 ex.smbl， 该 数据 共 包含 6000 条 观测 、17 个 变量 。 具 体 变量 含义 如 下 : 
. ID: 经 过 处 理 后 的 客户 ID 

* PROFITRATE: 资产 收益 率 〈 百 分 比 ) 

BAD: 是 否 为 不 良 贷 款 (0: 否 ，1: 是 ) 

. REASON: 贷款 原因 /用 途 (0: 资金 周转 ，1: 扩大 规模 ， 缺 失 值 ) 

. DELINQ: 信用 记录 中 拖欠 交易 次 数 

* DEBTINC: 店铺 资产 负债 比率 (百分比 ， 全 部 负债 除 以 全 部 资产 ) 

. EDUCATION: 申请 人 学 历 (1: 高 中 以 下 ，2: 大 学 ，3: 研究 生 及 以 上 ) 
. YROPEN: 店铺 经 营 时 间 (单位 : 年 ) 

.REVENUE: 店铺 年 营业 额 (单位 : 元) 

. CREDITAGE: 申请 人 信用 记录 (单位 : 年 ) 

LOCAL: 是 否 为 本 地 户籍 (0: 否 ，1: 是 ) 

- AGE : 申请 人 年 龄 

RENT: 店铺 月 租金 (单位 : 元 ) 

. CREDITLEVEL: 申请 人 信用 等 级 (1: A+, 2: A, 3: B+, 4: B) 

. STOREAREA: 店铺 面积 (单位: 平方 米 ) 

. NUMEMPLOYEE: 雇员 人 数 

. INDAREA: 所 属 行 业 (1: 服务 业 ，2: 零售 业 ，3: 其 他 ) 


至 此 ， 针 对 X 公 司 的 现状 ， 我们 确定 了 要 分 析 的 问题 以 及 所 需要 的 数据 ， 接 下 来 将 针对 数据 进行 后 续 的 分 析 工 作 。 


18.3 数据 抽样 、 探 索 与 加 工 


经 过 前 面 的 步骤 ， 已 经 明确 了 竺 分 析 的 问题 ， 确 定 了 数据 源 。 从 这 一 节 开始 ， 要 对 数据 本 身 进 行 操作 ， 直 至 数据 可 以 用 来 建 模 。 这 一 阶段 的 工作 主要 包括 以 下 几 个 方面 的 内 容 : 
“ 数据 抽样 

.数据 探索 

` 对 数据 进行 加 工 


这 里 需要 指出 的 是 ， 数 据 探 索 与 数据 抽样 这 两 步 的 先后 顺序 不 是 一 成 不 变 的 ， 二 者 是 可 以 对 调 的 ， 在 某 些 情形 下 ， 也 可 能 需要 进行 反复 的 抽样 与 探索 。 
18.3.1 数据 抽样 


假设 要 对 规模 较 大 的 数据 (例如 ， 数 亿 条 观测 ) 查看 某 个 变量 的 分 布 ， 以 探索 合适 的 数学 建 模 方法 ， 在 这 种 情况 下 ， 直 接 对 其 进行 操作 可 能 不 是 一 个 很 好 的 选择 。 一 个 常见 的 方法 是 ， 先 对 大 规模 数据 
进行 抽样 ， 基 于 样本 数据 进行 分 析 。 一 般 来 说 ， 如 果 样 本 容量 足够 大 ， 就 能 够 保证 对 变量 的 分 布 有 很 好 的 估计 。 此 外 ， 在 建 模 时 ， 我 们 一 般 会 建立 多 个 模型 进行 比较 ， 并 选择 其 中 的 一 个 模型 进行 参数 调 
整 ， 如 果 类 似 的 操作 直接 在 原 数据 集 上 进行 ， 可 能 对 硬件 资源 的 要 求 就 会 比较 高 。 可 见 ， 对 原 数 据 集 进 行 抽样 不 失 为 一 个 好 的 选择 。 


用 到 数据 抽样 方法 的 另外 一 种 情况 是 ， 数 据 集中 的 数据 规模 太 小 ， 无 法 判断 总 体 的 分 布 ， 这 时 候 就 可 以 通过 抽样 的 方法 〈 例 如 ， 放 回 的 无 限制 随机 取样 ， 定 义 见 下 文 ) ， 生 成 “足够 多 ”的 数据 。 
SAS 通 过 PROC SURVEYSELECT 实 现 常见 的 抽样 方法 ， 具 体 而 言 ， 该 过 程 步 提供 以 下 几 种 等 概率 抽样 方法 。 

.不 放 回 的 简单 随机 抽样 (Simple Random Sampling) : 按照 等 概率 的 原则 ， 直 接 从 含有 N 个 元 素 的 总 体 中 抽取 n 个 元 素 〈 不 放 回 ) 作为 样本 。 

* 放 回 的 无 限制 随机 抽样 《Unrestticted Random Sampling) : 按照 等 概率 的 原则 ， 直 接 从 含有 N 个 元 素 的 总 体 中 抽取 n 个 元 素 〈 放 回 ) 作为 样本 。 


* 系统 随机 抽样 (Systematic Random Sampling) : 先 将 数据 集中 的 观测 按照 某 种 规则 进行 编号 ， 记 编号 为 1~N， 假 设 抽样 的 样本 容量 为 n， 那 么 抽样 距离 为 K=N/n， 抽 样 时 ， 先 在 1- 开 中 随机 选取 一 个 观 


测 1， 接 着 选取 i+ 多 、i+2K、i+3 区 等 ， 以 此 类 推 ， 直 至 得 到 n 条 观测 为 止 。 
` 逐次 抽样 (Sequential Random Sampling) : 开始 只 抽取 少量 的 样本 来 决定 是 否 接受 某 一 假设 ， 或 者 继续 抽取 样本 ， 直 至 能 够 接受 或 拒绝 该 假设 为 止 。 
“ 伯 努 利 抽样 (Bernoulli sampling) : 该 抽样 方法 是 一 个 等 概率 方法 ， 但 是 每 次 抽样 结果 的 样本 容量 不 是 固定 的 。 总 体 中 的 每 一 个 个 体 是 否 被 抽取 ， 都 可 以 看 成 是 一 个 伯 努 利 试 验 。 


此 外 ，PROC SURVEYSELECT 还 提供 以 下 几 种 比例 抽样 (Probability Proportional to Size Sampling，PPS 抽 样 ) 方法 : 


. PPS 无 放 回 抽样 (PPS Sampling Without Replacement) 
: PPS 放 回 抽样 (PPS Sampling With Replacement) 
* PPS 系 统 抽 样 (PPS Systematic Sampling) 


PROC SURVEYSELECT 的 一 般 形式 如 下 : 





PROC SURVEYSELECT 选项 ， 
CONTROL 变量 ; 
FREO 变 量 




















ID 变量 ，; 
STRATA 变 量 < 选 项 > ; 
RUN; 


其 中 : 

. PROC SURVEYSELECT 语 名 常见 的 选项 如 表 18.1 所 示 。 

如 果 用 户 使 用 CONTROL 语 句 ， 那 么 PROC SURVEYSELECT 在 进行 抽样 前 会 将 数据 按照 CONTROL 语 句 中 指定 的 变量 排序 。 

" FREQ 指 定 一 个 数值 变量 ， 该 变量 的 值 代表 每 条 观测 出 现 的 频数 。 

“ID 语句 指定 若干 个 (原始 数据 集中 的 ) 变量 ， 这 些 变量 将 被 各 括 进 指定 的 输出 变量 数据 集 (使 用 “OUT=” 选 项 指定 ， 具 体 见 表 18.1) 。 
. STRATA 语 名 指定 用 来 分 层 的 变量 。PROC SURVEYSELECT 从 这 些 层 中 独立 地 进行 抽样 。 


表 18.1 PROC SURVEYSELECT 常 见 的 选项 


选 项 功能 说 明 


DATA= 供 抽样 的 输入 数据 集 
OUT= 输出 样本 效 据 集 
ee 抽样 方法 ， 具体 包 括 : SRS (简单 随机 抽样 )、PPS (PPS 无 放 回 抽样 )PPS_WR (PPS 有 放 回 抽样 ， 
WR 为 喘 文 放 回 “With Replacement” 的 缩写 )、SEQ (逐次 抽样 )、BERNOULLI ( 伯 努 利 抽 样 ) 
SAMPSIZE= 指定 生成 的 样本 容量 
该 值 ( 正 整 数 ) 为 生成 随机 数 的 初始 种 子 ( 奢 该 人 缺失 ，SAS 使 用 当前 计算 机 时 间 生 成 一 个 
SEED = 值 )。 不 同 随机 数 种 子 生成 的 样本 一 般 不 一 样 ， 反 之 ， 如 果 要 产生 相同 结果 的 样本 ， 应 该 指定 同 
一 初始 种 子 值 
STRATA = 指定 分 层 变 量 
将 数据 集中 的 观测 随机 分 组 。 例 如 ，GROUP=3 选项 将 数据 集中 的 观测 随机 分 成 3 组 ,每 组 的 
GROUPS= 观测 数目 尽 可 能 一 样 ， 如 100 个 观测 ， 将 被 分 为 33，33，34。 上 述 分 组 功能 也 可 以 通过 直接 指 


定 每 个 分 组 的 观测 数 来 实现 ， 即 GROUP= (33，33，34 ) 
有 关 PROC SURVEYSELECT 更 加 详细 的 介绍 可 以 参考 SAS 帮 助 文档 。 


18.3.2 ”数据 探索 


对 数据 进行 探索 首先 要 对 数据 有 一 个 “整体 ”的 认识 ， 例 如 有 多 少 个 观测 、 多 少 列 ， 以 及 每 列 的 取 值 特征 等 。 此 外 ， 还 可 以 结合 变量 的 汇总 统计 信息 对 每 个 变量 的 分 布 进行 观察 。 通 过 数据 探索 可 以 了 
解 变量 取 值 变化 的 趋势 、 确 定数 据 中 异常 的 观测 。 


常见 的 用 于 数据 探索 的 方法 有 计算 汇总 统计 量 与 可 视 化 (如 直方 图 ) 等 。 此 外 ， 也 可 以 借助 于 其 他 统计 方法 ， 如 变量 之 间 的 关联 性 分 析 、 变 量 聚 类 分 析 [] 等 ， 实 现 对 数据 集 的 初步 分 析 。 
1.“ 熟 悉 ” 数 据 集 本 身 结构 
数据 探索 的 第 一 个 工作 是 要 “熟悉 ”数据 集 本 身 的 结构 。 首 先 ， 需 要 了 解 的 问题 如 下 : 
数据 集 有 几 个 观测 ”是否 有 重复 的 观测 ? 不 重复 的 观测 的 数目 是 多 少 ? 
. 数据 集 有 多 少 列 ? 列 的 名 称 是 什么 ? 标签 是 什么 ? 
" 数据 集 是 否 已 经 排序 ? 按 哪 一 个 或 者 哪 几 个 变量 排序 ? 
" 数据 集 是 否 包含 索 引 ? 
“ 数据 集 是 否 包含 缺失 值 ? 
解决 上 述 问题 常见 的 工具 有 : 
. SAS 资 源 管理 器 (SAS EXPLORER) 
. PROC CONTENTS 


在 图 18.1 中 ， 右 击 “SAs 资 源 管理 器 ”中 的 数据 集 打 开 其 属性 对 话 框 ， 在 属性 对 话 框 上 切换 不 同 的 标签 (如 “ 列 ”、“ 详 细 信息 ”等 ) 就 可 以 查看 该 数据 集 观测 数 、 列 的 名 称 、 类 型 、 格 式 与 标签 等 娄 
据 集 结构 信息 ， 限 于 篇 幅 这 里 就 不 一 一 展示 了 。 
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图 18.1 ”数据 集 ex.smbl 的 属性 


通过 “资源 管理 器 ”查看 到 的 信息 也 可 以 通过 PROC CONTENTS 在 “输出 ”窗口 查看 。 代 码 如 下 : 





proc contents data = ex.smbl; run; 





如 果 不 仅 想 要 查看 某 个 数据 集 包 含 多 少 条 观测 ， 还 想 要 了 解 这 些 观测 是 否 重复 、 不 重复 的 观测 有 几 条 、 是 否 包 含 缺 失 值 等 ， 也 都 可 以 通过 PROC SQL 来 实现 。 具 体 的 操作 读者 可 以 查阅 本 书 SQL 语 言 中 
有 关 COUNT 函 数 的 使 用 。 


2. 通 过 汇总 信息 对 数据 集 进 行 探索 
前 面 介 绍 的 数据 探索 都 是 从 数据 集 本 身 的 结构 入 手 的 。 接 下 来 ， 将 深入 数据 集中 的 列 ， 对 列 进行 “探索 ”。 


一 个 数据 集 往往 会 包含 多 列 。 在 数据 挖 气 中 ， 列 被 称 为 变量 ， 并 且 根 据 变量 在 建 模 中 的 作用 ， 又 将 其 分 为 输入 变量 ( 自 变 量 ) 与 目标 变量 ( 因 变 量 ) 。 这 里 需要 注意 的 是 ， 如 果 使 用 的 是 无 监督 分 析 ， 


Zz 时 上 且 


目标 变量 是 不 存在 的 。 例 如 ， 在 对 变量 进行 聚 类 时 ， 所 有 的 变量 都 是 输入 变量 ,不 存在 目标 变量 。 


根据 变量 的 取 值 属性 ， 可 以 将 其 分 为 连续 变量 与 离散 变量 。 其 中 ， 离 散 变量 又 可 以 进一步 分 为 定 类 变量 、 有 序 变量 、0-1 变 量 (0-1 变 量 属 于 定 类 变量 ， 由 于 其 特殊 性 ,一般 独立 列 出 ) 、 单 维 变量 
(Unary Variable， 单 位 变量 中 ， 变 量 的 取 值 为 唯一 ， 且 为 固定 值 ， 单 维 变量 在 建 模 中 一 般 用 处 不 大 ) 。 对 于 连续 型 变量 ， 可 以 查看 其 集中 趋势 (Central Tendency) 、 离 散 程 度 以 及 分 布 情况 (相应 的 统 
计量 如 表 18.2 所 示 ) ; 对 于 离散 变量 ， 可 以 统计 出 不 同 取 值 的 个 数 、 比 例 ， 也 可 以 画 出 直方 图 。 


表 18.2 ”连续 型 变量 中 部 趋势 、 离 散 程 度 、 分 布 以 及 相应 的 统计 量 


类 别 统计 量 


集中 趋势 均值 (Mean)、 中 数 (Median)、 众 数 (Mode ) 
离散 程度 方差 ( Variance )、 什 域 (Range ) 


最 小 值 、P1、P5、P10、P50、P90、P95、P99、 最 大 值 、 峰 度 以 及 偏 度 等 ， 这 里 P 代表 分 位 数 ， 


分 布 的 形状 | 。 、 人 类 类 捧 
例如 P10 代表 10% 分 位 数 ， 以 此 类 推 


有 关 描 述 性 统计 量 的 概念 以 及 如 何 利用 SAs 实 现 ， 可 以 参考 本 书 第 9 章 “描述 性 统计 分 析 ”。 
例 18.1: 数据 集 ex.smbl 中 包含 了 17 个 变量 ， 该 历史 数据 将 用 于 建 模 来 判定 新 的 申请 者 是 否 有 可 能 为 不 良 贷款 。 
首先 ， 可 以 通过 查看 数据 集 ， 确 定 其 中 每 个 变量 的 角色 与 具体 类 型 。 在 数据 集 变量 中 ， 除 了 ID 变量 外 ， 其 余 变 量 的 角色 与 类 型 如 表 18.3 所 示 。 


表 18.3 ”数据 集 ex.smbl 中 变量 角色 与 类 型 分 析 
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4 CREDITAGE 申请 人 信用 记录 数值 葡 和 人 变量 连续 变量 
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13 RENT 店铺 租金 数值 输入 变量 连续 变量 
14 REVENUE 店铺 营业 箱 卜 值 输入 变量 连续 变量 
15 | STOREAREA 店铺 面积 输入 变量 连续 变量 
16 YROPEN 店铺 经 营 时 间 输入 变量 连续 变量 


其 次 ， 需 要 了 解 每 个 变量 是 否 含有 缺失 值 以 及 缺失 值 的 个 数 ， 代 码 如 下 : 





proc means data = ex.smbl N NMISS 
Var numeric }; 
ELUN? 





MEANS PROCEDURE 


变量 N 缺失 值 个 数 


PROFITRA TE 6b000 0 
日 AL bUUL U 
DELINQ nd1 583 
DEBTINGC 4724 1216 
EDUCATION bUUL 
YROPEN CUOO 0 
REVENUE 994 E 
LREDITAGE 09 309 
J091 309 
6000 
buUUU 
AREA bUUU 
NUMEMPLOYEE | 8000 
INDARLCA bUUU 
bUUU 
中 4 1 195 
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图 18.2 ”数据 集 ex.smbl 变 量 及 其 包含 缺失 值 的 个 数 
代码 的 输出 结果 如 图 18.2 所 示 。 
从 上 述 的 输出 结果 可 以 看 出 : 变量 DELINQ、DEBTINC、REVENUE、CREDITAGE、AGE 以 及 REASON 包 含有 缺失 值 (对 于 缺失 值 的 处 理会 在 下 面 讲 述 ) 。 


对 于 离散 的 变量 (包括 定 类 变量 与 有 序 变量 ) ， 可 以 查看 其 不 同 取 值 的 频数 分 布 图 。 代 码 如 下 : 








smacro FredqBar (qs， varname); 
proc fred data=&ds; 
tables &varname / plots (only)=freqplot; 
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提交 上 述 代码 ， 输 出 结果 如 图 18.3 所 示 。 


对 于 连续 变量 ， 可 以 进一步 查看 其 最 小 值 、 最 大 值 、 均 值 以 及 中 位 数 等 信息 。 示 例 代码 如 下 : 





proc means data = ex.smbl N nmiss min mean median max stdqd; 
Var age creditage deling debtinc numemployee profitrate 
rent revenue storearea yropen; 





run; 


以 下 对 效 的 分 布 : LOCAL 以 下 对 象 的 分 布 : CREDITLEVEL 








CREDITLEVEL 








以 下 对 象 的 分 布 : EDUCATION 以 下 对 象 的 分 布 : BAD 














BAD 


以 下 对 象 的 分 布 : INDAREA 以 下 对 象 的 分 布 : REASON 








图 18.3 ”数据 集 ex.smbl 离 散 型 变量 频数 图 


运行 上 述 代 码 ， 输 出 结果 如 图 18.4 所 示 。 


Variable NN Miss Minimum Mean Median | Maximum Std Dev 


AGE 5691 309 20.0000000 38.5622913 38.0000000 55.0000000 | 9.6291760 
CREDITAGE 5691 30: | 6.9240028 | 5.5000000 20.0000000 6.6094527 
DELINA S41 563 U1316740 0 15.0000000 1.3238698 
DEBTING 4124 , 12700190 | 34.0286404 35.0373326 | 202.17344959 | 8.60248710 


NUMEMPLOQYEE 6000 0 1.0000000 | 2.0255000 20000000 0 8.0000000 1.3028684 


PROFITRATE e000 0.6185490 03761639 3.9215182| 0.71097145 
RENT bu00 ] 2a2d3jd1.58 20604.50 Jegdr 00 13012.06 
REVENUE 59943 100349.78 91712.00 1020664.00 | 63063.19 
IOREARCA bu00 8.0000000 42.5238333 41.0000000 246.0000000 16.z21321j 
YROPEN bo000 1.0000000 ， 99930000 10.0000000 | 23.0000000 49526800 





图 18.4 数据 集 ex.smbl 连 续 性 变量 相关 汇总 统计 量 


3. 变 量 的 选择 


在 数据 探索 中 ， 另 外 一 个 重要 的 步骤 是 找 出 “最 重要 ”的 变量 。 虽 然 前 面 介绍 了 如 何 结合 商业 目标 对 变量 进行 初步 的 筛选 ， 但 那 仅仅 是 从 经 验 与 直观 上 进行 的 变量 选择 ， 缺 乏 数学 与 统计 学 分 析 依据 。 
经 过 初步 筛选 后 的 数据 集 可 能 仍然 包含 着 众多 变量 ， 在 这 些 情形 下 ， 仍 然 需要 对 变量 进行 进一步 的 筛选 。 


进行 数据 挖掘 时 ， 用 于 变量 筛选 的 常见 方法 有 以 下 几 种 : 


. 变量 聚 类 法 
. 变量 与 目标 变量 之 间 的 关联 性 (Association) 分 析 法 


首先 考虑 逐步 回归 变量 选择 法 。 该 方法 常见 于 回归 类 统计 分 析 方法 ， 例 如 在 回归 分 析 中 ， 变 量 的 选择 方法 有 3 种 : 向 前 选择 法 、 向 后 消除 法 以 及 逐步 回归 法 。 这 3 种 方法 对 变量 进行 选择 的 依据 是 变量 的 


显著 性。 


主 成 分 法 指 的 是 从 现 有 的 众多 变量 中 ， 得 出 若干 个 起 主导 作用 的 综合 指标 〈 即 主 成 分 ) ， 然 后 使 用 这 些 综合 指标 代 蔡 原 数据 集中 的 变量 进行 研究 。 有 关 主 成 分 法 的 原理 、 思 想 以 及 用 法 参见 本 书 主 成 分 


分 析 部 分 。 


变量 聚 类 法 实际 上 是 将 前 面 介 绍 的 聚 类 分 析 方 法 用 于 变量 ， 即 将 众多 变量 分 成 若干 类 ， 从 每 一 类 中 挑 出 一 个 “代表 ”进行 分 析 。 这 样 做 的 好 处 是 在 保留 原始 数据 集中 绝 大 多 数 变量 信息 的 基础 上 ， 尽 可 
能 减少 待 分 析 的 变量 个 数 。 事 实 上 ， 变 量 的 聚 类 也 常用 于 聚 类 分 析 的 数据 集 预 处 理 。 


在 SAS 中 ， 变 量 的 聚 类 可 以 通过 PROC VARCLUS 实 现 ， 其 使 用 语法 如 下 : 





PROC VARCLUS DATA = 数据 集 < 选 项 >; 
BY 变量 ; 
VAR 变 量 ，; 

RUN; 














其 中 : 


. PROC VARCLUS 语 名 常用 的 选项 有 ，MAXCLUSTERS= 选 项 用 于 指定 最 多 可 生成 的 类 数 ; MAXITER= 选 项 用 于 指定 过 程 的 最 大 和 迭代 次 数 ; MAXEIGEN= 选 项 指定 一 个 最 大 特征 值 ， 当 某 一 类 中 的 第 二 
大 特征 值 大 于 该 指定 值 时 ， 过 程 将 对 该 类 进行 拆 分 ; PROPORTION= 选 项 指定 用 于 拆 分 类 的 解释 比例 闵 值 ，PROC VARCLUS 表 示 选 择 解 释 比 例 最 小 的 一 类 进行 拆 分 ， 需 要 注意 的 是 ， 如 果 该 选项 和 选项 
MAXCLUSTERS= 同 时 出 现 ， 选 项 MAXCLUSTERS= 会 优先 起 作用 。 


` 使 用 BY 语句 的 前 提 是 要 求 数据 集 已 经 按照 BY 语句 中 的 变量 顺序 排序 ， 对 于 数据 集中 的 每 一 组 观测 ，PROC VARCLUS 都 会 进行 聚 类 分 析 。 此 外 ， 若 用 户 指定 的 BY 变量 多 于 一 个 ，PROC VARCLUS 将 仅 


使 用 最 后 一 个 变量 。 
. VAR 语 名 指定 用 来 聚 类 分 析 的 变量 。 
有 关 该 过 程 步 的 具体 介绍 参见 SAS 帮 助 文档 ， 这 里 不 具体 展开 。 


除了 上 述 3 种 方法 外 ， 还 可 以 通过 考虑 变量 与 目标 变量 之 间 的 关联 性 分 析 来 对 变量 进行 筛选 。 例 如 ， 在 目标 变量 为 0-1 的 LOGISTIC 回 归 模 型 中 ， 可 以 通过 计算 卡 方 值 来 判断 数据 集中 的 每 一 个 变量 与 目标 
变量 之 间 是 否 存 在 关联 性 ， 并 通过 CRAMER'S V 值 判断 关联 性 强 弱 。 若 考虑 单个 变量 与 目标 变量 之 间 的 关联 性 ， 这 时 CRAMER'S V 的 值 将 介 于 -1 与 1 之 间 ， 其 绝对 值 越 大 ， 关 联 性 越 强 ; 若 考 虑 多 个 变量 与 目 
标 变 量 之 间 的 关联 性 ， 这 时 CRAMER'S V 的 值 将 介 于 0 与 1 之 间 ， 该 值 越 大 ， 关 联 性 越 强 。 


例 18.2: 对 数据 集 ex.smbl 中 变量 进行 选择 。 


首先 ， 根 据 图 18.2 中 缺失 值 的 信息 可 以 看 到 ， 变 量 REASON 和 变量 DEBTINC 的 缺失 值 均 比 较 多 。 由 于 变量 DEBTINC 反 映 的 是 资产 负债 比 ， 理 论 上 是 一 个 比较 重要 的 贷款 依据 ， 因 此 ， 要 予以 保留 ， 在 后 
期 中 会 对 缺失 值 进行 处 理 。 至 于 变量 REASON， 来 看 看 要 对 它 如 何 选 择 。 以 下 代码 输出 变量 REASON 与 BAD 的 频数 表 : 








proc freq data = ex.smbl; 
tables reason*bad; 
PUN 


输出 结果 如 图 18.5 所 示 。 


频数 表 - REASON * BAD 
白 务 比 
行 百 








0 





16% 398 
41.03 | 9.85 
80.64 | 19.36 
50.87 | 50.90 


合计 3259 | 782 4041 
80.65 | 19.35 100.00 


频数 缺失 = 1959 








图 18.5 “变量 REASON 与 BAD 的 频数 表 
从 图 18.5 中 可 以 看 到 ， 对 于 REASON 变 量 有 以 下 结论 : 
. 缺失 值 较 多 ， 约 占 1/3。 
* 在 所 有 非 缺 失 值 的 观测 中 ，REASON 取 值 为 0 与 为 1 的 约 各 占 一 半 。 
: 在 BAD=1 (不 良 贷 款 的 观测 中 ) ，REASON=0 与 REASON=1 的 观测 的 比例 为 384 : 398， 大 约 为 1。 换 和 句 话说 ， 在 不 良 观测 的 贷款 中 ， 该 变量 不 具有 很 好 的 区 分 性 。 
综合 上 述 几 点 ， 在 后 续 建 模 中 ， 对 变量 REASON ， 将 不 予以 考虑 。 


除了 变量 REASON 外 ， 在 其 余 的 分 类 变量 中 ， 缺 失 值 所 占 的 比例 都 很 小 。 我 们 可 以 考虑 将 剩余 的 分 类 变量 与 目标 变量 BAD 进 行 关联 性 分 析 ， 计 算 其 卡 方 值 以 及 CRAMER'S V 值 。 代 码 如 下 : 








proc freq data = ex.smbl; 

tables (Creditlevel Education IndArea Local)*Bad/chisq 
nocol nopercent; 
run; 











上 述 代码 的 输出 中 ， 包 括 上 述 4 个 变量 与 BAD 的 交叉 频数 表 ， 以 及 “BAD- 变 量 ” 统 计量 表 ， 具 体 如 图 18.6 所 示 。 


FREQ 过 程 


频数 表 - CREDITLEVEL * BAD FREQ 过 程 
行 百 分 比 = 


"DCNITI CVUCI 人 -~ 


频数 表 - EDUCATION * BAD 


一 重 TI 行 百 分 比 


1, 1785, 125 1910 et 
93.46 6.54 EDUCATION 0 1 | 合计 
2 1177| 226 1403 1 2633 728 3361 
83.89 16.11 78.34 21.66 
3, 1156, 367 1523 2 1457 340 1797 
75.90 24.10 81.08 18.92 
4, 687 477 1164 3ij 715 127 842 
59.02 40.98 84.92 15.08 
合计 4805 1195 6000 合计 4805 1195 6000 
表 “BAD-CREDITLEVEL” 的 统计 县 表 “BAD-EDUCATION” 的 统计 县 
统计 县 自由 度 值 概率 统计 县 自由 度 值 。 概率 
卡 方 3 567.3354 卡 方 2 19.8575 
似 然 比 卡 方 检验 3 571.3813 <.0001 ”| 似 然 比 卡 方 检验 2 20.6026 <.0001 
Mantel-Haenszel 卡 方 1 550.4425 <.0001 “Mantel-Haenszel 卡 方 1 19.6507 <.0001 
Phi 系数 0.3075 Phi 系数 0.0575 
列 联 系数 0.2939 列 联 系数 0.0574 


Cramer V 0.3075 Cramer V 0.0575 


样本 大 小 = 6000 样本 大 小 = 6000 
频数 表 - INDAREA * BAD 
行 百 分 比 频数 表 - LOCAL * BAD 
BAD 
行 百 分 比 BAD 
INDAREA 0 1 | 合计 
1| 2164, 531 2695 LOCAL . 1 合计 
80.30 19.70 0 2676 652 3328 
2 933 259 1192 00.41 | 193.59 
78.27 21.73 1 2129 543 2672 
3| 1708 , 405 2113 "09 | ee 
80.83 19.17 合计 4805 1195 6000 
合计 4805 1195 6000 


表 “BAD-LOCAL” 的 统计 野 
表 “BAD-INDAREA” 的 统计 县 


统计 县 自由 度 值 ”概率 
统计 县 自由 度 。 人 和 值 概率 卡 方 1 0.4959 [0.4813| 
卡 方 2 3.2739 |0.1946| ” 似 然 比 卡 方 检验 1 0.4954 0.4815 
似 然 比 卡 方 检验 2 3.2280 0.1991 壬 续 调 束 卡 方 1 0.4511 0.5018 
Mantel-Haenszel 卡 方 1 0.1342 0.7141 Mantel-Haenszel 卡 方 1 0.4958 0.4814 
Phi 系数 0.0234 Phi 系数 0.0091 
列 联 系数 0.0234 列 联 系数 0.0091 
Cramer V 0.0234 Cramer V 0.0091 


图 18.6 ”数据 集 ex.smbl 中 离散 变量 与 目标 变量 的 关联 性 分 析 


从 图 18.6 可 以 看 出 ， 变 量 CREDITLEVEL、EDUCATION 与 目标 变量 BAD 的 关联 性 较 强 ， 变 量 INDAREA 以 及 LOCAL 与 变量 BAD 的 关联 性 不 强 。 因 此 ， 考 虑 将 变量 LOCAL 与 BAD 也 排除 在 建 模 的 变量 之 
外 。 此 外 ， 从 CRAMER'S V 值 可 以 看 出 ，CREDITLEVEL 与 BAD 的 关联 性 较 EDUCATION 与 BAD 间 的 关联 性 强 。 


最 后 ， 考 虑 数据 集 ex.smbl 和 输入 变量 中 剩余 的 连续 变量 。 对 于 连续 变量 ， 可 以 考虑 将 数据 集 按 


照 连 续 变量 逐个 进行 排序 、 分 组 (如 分 成 10 个 组 ) ， 并 查看 每 个 组 内 不 良 贷款 所 占 的 比例 。 


" 如 果 不 同 组 中 BAD=1 所 占 的 比例 类 似 ， 说 明 该 连续 变量 的 取 值 对 BAD 的 区 分 性 不 是 很 好 ， 可 以 考虑 将 该 变量 排除 。 


. 如 果 不 同 组 中 BAD=1 所 占 的 比例 差别 较 大 ， 则 应 考虑 变化 的 趋势 是 否 合理 。 


具体 的 代码 如 下 : 


smacro plottrend(ds, varname, obsingroup 





data temp; 
set &ds (keep = &varname 
Eu 


proc" Sort data = tenp: Hut = tm 


by &varname; 
run; 
data tmp; 

set tmp; 


); 
* 生 成 一 个 仅 包 含 竺 分析 变量 的 子 数据 集 ; 
BAD); 
























































* 对 排序 完 的 子 数据 集 进行 分 组 标记 ; 





group = ceil( N /&obsingroup); 


run; 
data plot; 
set tmp; 
by group; 




















- 


* 根 据 分 组 标记 ， 对 每 组 内 的 观测 求 5 





* 对 子 数据 集 进行 排序 ; 














if first.group then sum =0; 
if last.group then do; avg = (sum/&obsingroup); output; eng; 





else sum + BAD; 


run; 
proc sgplot data = plot; 











* 男 图 ; 


title "&varname - Bad Trend"; 
series x= group y = avg / markers; 



























































Un 

smendg; 

splottrend (ex.smbl, age, 1200) 
splottrend (ex.smbl, yropen, 600) 
splottrend (ex.smbl, revenue, 600) 
splottrend (ex.smbl, rent, 600) 
Splottrend (ex.smbl, debtinc, 600) 
Splottrend (ex.smbl, deling, 600) 
splottrend (ex.smbl, profitrate, 600) 
splottrend (ex.smbl, creditage,600) 
splottrend (ex.smbl, storearea, 600) 


代码 的 输出 结果 如 图 18.7 所 示 。 


* 均 ， 将 : 














“均值 存储 为 新 的 数据 集 plot; 
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“输入 变量 一 目标 变量 ”趋势 图 


图 18.7 


输入 变量 一 目标 变量 ”趋势 图 


deling - Bad Trend profitrate - Bad Trend 
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图 18.7 ( 续 ) 


从 图 18.7 可 以 看 出 ， 输 入 变量 不 同 组 在 目标 变量 上 都 具有 不 同 程度 的 区 分 性 。 这 时 ， 还 应 考虑 趋势 是 否 正确 。 例 如 ， 一 般 来 说 ， 资 产 负债 率 越 高 越 容易 违规 ， 但 是 从 debtinc-BAD 趋 势 图 看 ， 似 乎 资产 
负债 率 低 的 违规 更 多 。 通 过 对 数据 进行 进一步 观测 ， 可 以 发 现 ， 头 两 个 组 ， 都 是 缺失 值 。 因 此 ， 该 趋势 图 初期 BAD= 1 的 观测 较 多 是 由 于 Debtinc 为 缺失 值 造成 的 。 同 理 ， 可 以 对 其 余 变量 的 取 值 趋势 进行 分 
析 。 


18.3.3 ”数据 加 工 
前 面 介绍 了 如 何 对 数据 进行 探索 。 从 本 节 开 始 ， 将 讨论 如 何 对 数据 集 进行 加 工 ， 数 据 加 工 包括 : 
. 原始 数据 集 的 分 害 
. 缺失 值 的 处 理 
. 变量 的 转化 
1. 分 割 原始 数据 集 
在 数据 挖掘 中 ， 一 般 会 将 原始 数据 集 分 成 若干 子 数据 集 ， 这 些 子 集 互 不 相交 ( 即 任意 两 个 子 数据 集 都 不 包含 原始 数据 集中 的 同一 条 观测 ) 。 具 体 地 说 ， 原 始 数 据 集 可 以 分 割 为 以 下 几 种 子 数据 集 : 
. 训练 数据 集 。 所 谓 的 训练 数据 集 指 的 是 原始 数据 集中 用 来 创建 模型 的 子 数据 集 。 
. 验证 数据 集 。 该 数据 也 是 原始 数据 集 的 一 个 子 集 ， 在 模型 创建 后 ， 可 以 用 这 部 分 数据 进行 验证 ， 如 果 模 型 效果 不 佳 ， 则 需要 对 模型 进行 重新 训练 。 
- 测试 数据 集 。 在 建 模 过 程 中 ， 不 需要 用 到 测试 数据 集 。 当 有 多 个 模型 进行 比较 时 ， 可 以 使 用 测试 数据 集 。 由 于 建 模 阶段 没有 用 到 测试 数据 集 ， 因 此 在 这 个 基础 上 进行 模型 优 劣 的 比较 会 相对 客观 。 
一 般 来 说 ， 训 | 练 数据 集 、 验 证 数据 集 与 测试 数据 集 三 者 的 占 比 为 35%、35% 与 30%。 但 在 实际 中 ， 常 常 仅 将 原始 数据 集 划 分 成 70% 的 训练 数据 集 与 30% 的 验证 数据 集 。 


例 18.3: 将 数据 集 ex.smbl 划 分 成 两 个 子 数据 集 ， 即 70% 的 训练 数据 集 与 30% 的 验证 数据 集 。 




































































示例 代码 如 下 : 

Smacro partition (train percent, validate percent); 

proc sql noprint; select count (ID) into: TotalObs from ex.smbl ;quit; 

Slet train obs = %sysevalf (gtrain percent*&TotalObs); * 训 | 练 数据 集 观测 数 ; 
$let validate obs = %sysevalf (&validate percent*&TotalObs); * 验 证 数据 集 观 测 数 ; 
proc surveyselect data = ex.smbl out = split seed = 9999 

group = (&train obs, &validate obs); 

run; 加 加 

data smbl train smbl] validate ， 








set split; 
if GroupID =1 then do; drop GroupID; output smbl train; endg; 
else do drop GroupID;output smbl] validate; endg; 

















PUT 
smend; 
Spartition(0.7, 0.3) 


运行 上 述 程 序 ， 在 “资源 管理 器 ”中 可 以 查看 到 新 生成 的 子 数据 集 ， 如 图 18.8 所 示 。 
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图 18.8 ”数据 集 ex.smbl 的 划分 
2. 缺 失 值 的 处 理 


对 缺失 值 的 处 理 也 是 数据 挖掘 中 的 难点 之 一 。 如 果 一 条 观测 在 某 一 个 变量 上 的 取 值 为 缺失 值 ， 那 么 称 该 观测 为 不 完整 观测 。SAs 中 的 多 数 过 程 步 都 不 会 考虑 不 完整 观测 。 虽 然 这 样 处 理 比 较 方 便 、 简 
单 ， 但 是 也 存在 一 定 的 问题 ， 例 如 ， 不 完整 观测 虽然 在 某 个 变量 上 的 值 缺失 ， 但 是 在 其 余 变 量 上 的 信息 仍然 是 有 用 的 。 


对 取 值 为 连续 型 的 变量 ， 缺 失 值 的 处 理 方法 一 般 有 以 下 几 种 : 
指定 默认 值 。 

“ 平均 值 。 

: 中 位 数 。 

(最 大 值 + 最 小 值 ) /2。 

“ 最 小 值 。 

` 最 大 值 。 

“ 不 做 处 理 。 

对 取 值 为 离散 的 分 类 变量 ， 缺 失 值 的 处 理 方法 一 般 有 以 下 几 种 : 
. 指定 默认 值 。 

* 众 数 。 在 变量 的 所 有 可 能 取 值 中 ， 最 经 常 出 现 的 一 个 。 
最 小 值 。 

最 大 值 。 

“ 不 做 处 理 。 


例 18.4: 对 数据 集 ex.smbl 中 的 缺失 值 进行 处 理 。 回 顾 之 前 对 数据 集 ex.smb| 的 探索 ， 可 发 现 数据 集 ex.smbl 共 有 6 个 变量 包含 缺失 值 ， 这 6 个 变量 分 别 是 : DELINQ、DEBTINC、CREDITAGE、AGE、 
REVENUE 以 及 REASON。 其 中 ， 我 们 通过 分 析 将 REASON 变 量 排除 在 用 于 建 模 的 变量 之 外 。 因 此 ， 现 在 仅 需 要 对 其 余 5 个 变量 进行 缺失 值 的 处 理 。 首 先 考 虑 变量 DEBTINC 和 变量 DELINQ。 


回顾 变量 DEBTINC、 变 量 DELINQ 与 目标 变量 的 趋势 图 ， 如 图 18.9 所 示 。 
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图 18.9 “DEBTINC 一 BAD” 以 及 “DELINQ 一 BAD” 趋 势 图 
变量 DEBTINC 表 示 的 是 资产 负债 比率 ,一般 来 说 ， 该 值 起 大， 为 不 良 贷款 的 可 能 性 就 相对 越 大 。 上 述 趋势 图 也 验证 了 这 一 点 : 由 于 数据 是 按照 DEBTINC 值 排序 的 ，group 值 越 大 ， 说 明 DEBTINC 值 越 


大 ， 抛 开 前 两 组 不 论 (这 两 组 中 该 值 均 为 缺失 值 ) ， 数 据 从 第 8 组 到 第 10 组 之 间 有 明显 的 上 升 趋势 ， 第 10 组 的 不 良 贷款 比例 最 高 。 


DEBTINC 的 值 设置 得 相对 大 些 。 这 里 ， 将 缺失 值 设 为 第 8 组 到 第 10 组 中 的 某 一 个 值 (这 些 组 上 不 良 贷款 的 比例 相对 较 高 ) 。 


变量 DELINQ 表 示 的 是 信用 记录 中 拖欠 交易 的 次 数 。 从 总 体 上 看 ， 趋 势 图 中 ，group 的 值 越 大 (拖欠 次 数 越 多 ) ， 
以 同样 考虑 将 DELINQ 的 值 设置 得 相对 大 些 。 这 里 ， 将 缺失 值 设 为 第 8 组 到 第 10 组 之 间 的 某 一 个 值 。 


对 于 剩余 两 个 变量 ， 即 CREDITAGE 与 AGE， 使 用 均值 填补 缺失 值 即 可 。 
为 此 ， 分 别 计算 出 这 几 个 统计 量 。 代 码 如 下 : 


proc means data = ex.smbl n nmiss mean p90 
Var debtinc deling creditage age revenue; 
EUN? 





鉴于 此 ， 在 对 前 两 组 观测 该 变量 的 缺失 值 进行 填补 时 ， 可 以 考虑 将 


变量 BAD 取 值 为 1 的 观测 比例 也 越 大 。 因 此 ， 在 对 变量 DELINQ 进 行 缺失 值 填补 时 ， 可 





提交 上 述 代码 ， 输 出 结果 如 图 18.10 所 示 。 


变量 


DEBTINGC 
DELING 
CREDITAGE 
AoE 


N 缺失 值 个 数 


咏 7 2 村 
SA17 
9 1 
Jb91 
39934 


图 18.10 


根据 上 面 的 分 析 及 图 18.10， 可 以 对 数据 集中 变量 的 缺失 值 进行 填补 。 示 例 代码 如 下 : 


data smbl train impute; 




















set smbl train; 

if (debtinc = . )then debtinc = 41.78; 

if (deling = .) then deling = 2; 

if (creditage = .) then creditage =6.9; if (Age = .) then Age = 39; 
if (revenue = .) then revenue = 100349; 

drop indarea local reason; 





run; 
data smbl validate impute; 
set smbl validate; 











if (debtinc = . )then debtinc = 41.78; 
if (deling = .) then deling = 2; 
if (creditage = .) then creditage = 6.9); 
if (Age = .) then Age = 39; 
if (revenue = .) then revenue = 100349; 
drop indarea local reason; 

ZU 


部 分 还 缺失 值 变量 的 汇总 统计 信息 


均值 第 90 个 百 分 位 数 


1 34.0280404 
383 0.7976740 















54.0000000 
1 9698.00 





经 过 缺失 值 填补 的 数据 集 smbl_ train_impute 以 及 数据 集 smbl_validate_impute 如 图 18.11 所 示 。 


VIETTABLE: York Sabl_train n_inpute VTETTANLE: Tork. Smb] walidate iopate 
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图 18.11 数据 集 smbl_train_impute 以 及 数据 集 smbl_validate_impute 


3. 变 量 的 转化 


在 数据 加 工 中 ， 变 量 的 转化 也 是 一 个 重要 的 环节 。 对 于 连续 变量 ， 常 见 的 转换 方法 有 以 下 几 种 : 


. 简单 变形 (Simple Transformations) 。 常 见 的 对 输入 变量 进行 简单 变形 的 方法 有 ，LOG、 开 方 根 、 取 送 、 平 方 、 取 指数 以 及 标准 化 等 ， 通 常 使 用 变换 后 的 新 值 来 代替 原来 的 输入 变量 进行 分 析 。 例 如 ， 
在 LOGISTIC 回 归 中 ， 理 想 情 况 下 ，LOGIT ( 因 变 量 ) 与 其 他 变量 〈 自 变量 ) 之 间 呈 线性 关系 。 假 设 现 有 一 个 变量 与 LOGIT 之 间 呈 二 次 关系 ， 在 这 种 情况 下 ， 可 以 考虑 对 变量 进行 平方 变形 ， 将 平方 后 的 变 
量 与 原 变 量 一 起 纳入 建 模 分 析 的 变量 中 。 


. BUCKET 转 换 法 。 该 方法 可 以 将 连续 变量 转化 为 分 类 变量 ， 具 体 做 法 是 ， 将 最 小 值 与 最 大 值 之 间 的 区 间 分 成 长 度 相等 的 n 组 ， 任 何 两 组 之 间 不 包含 同一 条 观测 ， 且 每 一 条 观测 恰好 落 入 其 中 的 某 一 组 
中 。 例 如 ， 将 年 龄 分 成 0~25、25~50、50~75 以 及 75~100 四 组 ， 每 一 组 所 包含 的 观测 数 可 能 不 一 样 。 


[1] 涌 类 的 结果 是 将 原 数据 集中 的 变量 分 成 若干 类 ， 从 每 一 类 中 选 出 一 个 “代表 ”， 用 其 代替 类 中 的 所 有 变量 。 这 样 处 理 后 变量 的 个 数 就 大 大 减少 了 。 


18.4 数据 建 模 


经 过 前 面 一 系列 的 数据 抽样 、 探 索 与 加 工 后， 我 们 对 数据 有 了 相当 的 了 解 ， 而 且 数据 经 过 处 理 后 ， 已 经 可 以 用 来 进行 建 模 了 。 建 模 的 过 程 包含 模 型 的 训练 、 模 型 的 验证 与 模型 的 测试 3 个 步骤 ， 这 3 个 步 

骤 分 别 对 应 着 3 个 数据 集 : 训练 数据 集 、 验 证 数据 集 与 测试 数据 集 。 模 型 经 过 训练 与 验证 后 ， 可 对 模型 的 参数 进行 适当 的 调整 ， 以 得 到 更 好 的 模型 。 模 型 的 训练 与 验证 可 能 是 一 个 反复 的 过 程 。 模 型 经 过 训 

练 、 验 证 、 调 整 直 至 确定 ， 这 一 过 程 用 到 的 数据 集 为 训练 数据 集 与 验证 数据 集 ， 并 不 会 涉及 测试 数据 集 。 不 过 ， 在 上 述 过 程 中 ， 可 能 会 产生 多 个 不 同 的 模型 ， 在 这 种 情况 下 ， 如 果 存 在 测试 数据 集 ， 可 以 用 
其 对 模型 进行 测试 ， 根 据 这 个 结果 来 衡量 模型 的 优 务 。 


18.4.1 模型 的 建立 


模型 方法 的 选择 与 输入 变量 以 及 目标 变量 的 类 型 是 紧密 相关 的 。 例 如 ， 如 果 输 入 变量 是 分 类 变量 、 目 标 变量 是 连续 的 ， 那 么 就 可 以 考虑 使 用 方差 分 析 ; 如 果 输 入 变量 是 分 
量 的 情形 ， 则 可 以 考虑 使 用 LOGISTIC 回 归 ; 如 果 输 入 变量 既 包 含 分 类 变量 也 包含 连续 变量 ， 而 目标 变量 为 分 类 变量 ， 也 可 以 考虑 使 用 LOGISTIC 回 归 ; 如 果 输 入 变量 既 包 含 分 类 变量 也 包含 连 
量 为 连续 变量 ， 则 应 考虑 协 方 差分 析 (这 部 分 内 容 不 是 本 书 范畴 ， 有 兴趣 的 读者 可 以 自行 查阅 相关 文档 ) 。 


一 般 来 说 ， 对 于 同一 个 数据 集 可 以 采用 多 种 方法 建立 模型 ， 然 后 比较 多 个 模型 拟 合 数据 的 效果 ， 从 中 选择 出 一 个 最 好 的 方法 。 即 使 是 采用 某 一 特定 的 方法 建立 起 来 的 模型 ， 也 需要 不 断 试 验 ， 调 整 模型 
中 的 参数 。 总 之 ， 模 型 的 建立 与 调试 可 能 是 一 个 反复 试验 的 过 程 。 


例 18.5: 对 数据 集 smbl train ee 分 析 。 数 据 集 smbl train_ impute 是 从 原始 数据 集 ex.smbl 中 拆 分 出 来 的 子 数据 集 ， 已 经 过 缺失 值 处 理 ， 用 于 模型 训练 。 数 据 集 smbl train impute 中 的 目 
标 变 量 是 0-1 变 量 ， 输 入 变量 包含 连续 变量 与 分 类 变量 ， 根 据 这 些 特征 ， 可 以 考虑 采用 LOGISTIC 回 归 进 行 建 模 分 析 。 


基于 业务 经 验 ，X 公 司 的 业务 人 员 认 为 申请 贷款 人 的 信用 程度 、 拖 欠 贷 款 的 次 数 、 店 铺 的 营业 额 、 僵 利 程度 以 及 店铺 人 存在 的 时 间 等 因素 为 决定 是 否 发 放贷 款 的 主要 因素 。 据 此 ， 我 们 可 以 建立 一 个 
LOGISTIC 模 型 。 代 码 如 下 : 





proc logistic data = ol train impute desc }; 

class creditlevel 

model bad = cel ed deling debtinc profitrate revenue yropen 
/selection = none; 




















run; 





运行 上 述 代码 ， 输 出 汇总 信息 ， 结 果 如 图 18.12 所 示 。 





“LOGISTIC ”过 程 


模型 信息 
数据 集 | WORK.SMBL_TRAIN_IMPUTE ， 
响应 变量 。 | BAD ] 
啊 应 水 平 巩 2 


优化 方法 |， Fisher 评分 法 

















建 模 的 概 宁 为 BAD=1. 


2 模型 输出 (一) 


紧 接着 ， 输 出 的 是 以 下 内 容 (如 图 18.13 所 示 ) : 


“分 类 水 平 信息 ” 表 ， 该 表 对 应 代码 中 的 CLASS 语句 。 使 用 DUTDESIGN 时 会 用 到 该 表格 ， 具 体 见 下 文 。 

“模型 收敛 状态 ” 表 ， 从 该 表 可 以 看 出 该 模型 是 收敛。 

“模型 拟 合 统计 量 ” 表 ， 当 有 多 个 LOGISTIC 模 型 时 ， 该 表 中 的 统计 量 越 小 ， 说 明 拟 合 程度 越 好 。 

检验 全 局 零 假 设 ” 表 ， 若 接受 该 假设 检验 ， 说 明 模 型 中 的 变量 对 目标 变量 的 分 类 几乎 没有 作用 。 从 图 18.13 中 该 表 的 结果 可 以 看 出 ， 模 型 中 的 变量 对 目标 变量 的 分 类 是 有 作用 的 。 
“3 型 效应 分 析 ” 表 ， 该 表 的 卡 方 值 均 小 于 0， 说 明 模 型 中 的 变量 对 目标 变量 的 区 分 都 是 有 一 定 程 度 的 作用 的 。 从 这 个 角度 看 ， 也 验证 了 业务 人 员 的 判断 。 


其 余部 分 的 输出 如 下 (如 图 18.14 所 示 ) : 


“最 大 似 然 估计 分 析 ” 表 ， 该 表 实 际 上 是 对 模型 数学 表达 式 中 各 个 参数 的 估计 。 列 “Pr> 卡 方 ” 用 于 检验 该 变量 在 LOGISTIC 回 归 模 型 中 是 否 显著 。 从 图 18.14 中 显示 的 表 可 以 看 出 ， 在 CREDITLEVEL 
取 值 为 2 时 ， 列 “Pr> 卡 方 ” 取 值 较 大 ， 因 此 ， 可 以 认为 其 对 模型 的 贡献 不 大 ， 需 要 做 进一步 的 处 理 ， 具 体操 作 下 面 会 讲述 。 


“ 优 比 估计 ” 表 ， 给 出 效应 的 点 估计 以 及 它们 对 应 的 95% 的 置信 区 间 。 


“预测 概率 和 观测 相应 的 关联 ” 表 ， 该 表 反 映 的 是 预测 的 准确 度 。 





CREDITLEVEL 1 1 0 0 
2201 0 





: 贡 眉 路 煞 准则 (GCONY= ] E -与 四 


模型 拟 合 统计 县 
准则 。 仅 截 更 规 距 和 协 变量 
AIlL | di5/.545 ] 1872., .93 
St dd2b4.B68 1929.478 























-LL |d255.525 1854. 493 


检验 全 局 回 假 设 : BETA=0 


自由 度 Pr > 卡 方 | 
比 2401.1326 8 <0001 
1904 .4437 8 <.0001 

8397332 8 <0001 






























Wald 
自由 度 | 卡 方 | Pr = 卡 方 


3 | 136.3047 | <.000] 
1 77.9998 <.0001 
1 182.1635 | <.0001 
1 113.1355 <.0001 
1 322.4743| <.0001 
1 293.9554 | 。 <.0001 | 
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图 18.13 ”模型 输出 (二) 


虽 大 似 然 估计 分 析 
标准 WwWald 















































































































































参数 自由 座 | 估计 误差， 卡 方 Pr > 卡 方 
Intercept | 1 23602| 04154| 32.2761| <.0001| 
CREDITLEVEL 1 1| -1.1273 | 01202z | 87.9396 
CREDITLEVEL | 2 1| .0.1455 | 0.1059 | 1.8892 
CREDITLEVEL 3| 1 | 0.2751 0 7.7308 
DELINQ 1| 0.4112 0.0466 77.9998 
DEBTINC | | ] 0.1383 DO002 182.1645 
| PROFITRATE | 1 | -1.3445 | “0.1264 | 113.1355 
REVENUE 1 | -0.00003 | 1.517E-6 | 322.4743 
YROPEN 1| -0.2255| 0.0132 | 293.9554 | <.0007 
优 比 估计 
| ] 5% WWald 
效应 点 估计 重信 限 
CREDITLEVEL 4-1 0.119 0.083 | 0.172 
CREDITLEVEL 4-2| 0.319 0.229 0.443 
CREDITLEVEL 43 0.486 | 0.356 0.663 | 
DELINQ 1.509 | 1.377 | 1.653 
DEBTING | 1 1.126 11 | 
PROFITRATE =| 0.261 0203 0334 
REVENUE 1.000 1.000 | 1.000 
YROPEN 0.798 0.778 0.819 
预测 概率 和 观测 响应 的 美 联 
一 致 部 分 所 占 百 分 比 | 943 Somers D 0.889 
不 一 致 部 分 所 占 百分比 54 Gamma 0.891 











结 值 百 分 比 


03 | Taura “0289 
对 


2869919 c 0.944 











图 18.14 ”模型 输出 (三 ) 


在 LOGISTIC 回 归 模 型 中 ， 可 能 存在 某 个 分 类 变量 下 的 若干 水 平 ， 在 这 些 水 平 下 ， 因 变量 的 取 值 区 分 并 不 明显 ， 比 如 ， 变 量 CREDITLEVEL 中 取 值 为 2 的 水 平 。 在 这 种 情况 下 ， 应 该 将 不 明显 的 水 平 排除 在 
模型 外 ， 这 个 过 程 可 以 通过 OUTDESIGN 选 项 实现 。OUTDESIGN 选 项 会 将 分 类 变量 的 水 平 输出 成 为 新 的 变量 ， 新 变量 的 个 数 与 原 分 类 变量 的 自由 度 相等 。 


例 18.6: 对 上 述 例子 中 的 模型 进行 调整 ， 将 CREDITLEVEL 取 值 为 2 的 水 平 排除 在 模型 外 。 


首先 ， 使 用 OUTDESIGN 选 项 将 分 类 变量 输出 成 为 新 的 变量 。 具 体 代码 如 下 : 





proc logistic data = smbl train impute desc outdesign = work.design; 

class creditlevel ; | 加 

model bad = creditlevel delinqg debtinc profitrate revenue yropen 
/selection = none; 

















运行 上 述 代码 ， 输 出 结果 与 上 例 中 的 输出 基本 一 致 ， 这 里 就 不 重复 介绍 了 。 输 出 结果 中 的 “分 类 水 平 信息 ” 表 如 图 18.15 所 示 。 图 中 的 设计 变量 即 为 新 生成 的 变量 。 可 以 看 出 ， 如 果 原 数 据 集中 的 某 一 观 
测 ， 其 CREDITLEVEL 的 取 值 为 1， 那 么 在 新 的 数据 集 work.design 中 ， 新 生成 的 变量 取 值 依次 为 : 1、0、0。 











分 关 


CREDITLEVEL 1 1 0 0 


图 18.15 ”分 类 水 平 信 息 表 


此 外 ， 生 成 的 数据 集 work.design 如 图 18.16 所 示 。 


EE VIEYTABLE : Work. Desien 
CREDITLEYBL|CREDITLEYEL|CREDIILEYEL| DELINQ | DEBTINC | PRORITRATE |RE 全 


| 386 0.334712060] rm 
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41 36 0.939071226 Pt 
41 36 D | ok 
4 .0612001686 站 村 
41 36 0.26931321U6 
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图 18.16 ”数据 集 wotk.design 
接着 ， 可 以 使 用 work.design 代 蔡 原 来 的 训练 数据 集 进 行 回 归 模 型 的 建立 。 下 面 对 上 述 代码 进行 修改 : 
. 删除 分 类 变量 CREDITLEVETL。 
. 输入 变量 中 增加 两 个 新 的 变量 ， 即 CREDITLEVEL1 和 CREDITLEVEI3。 


新 代码 如 下 所 示 : 


proc logistic data = work.design desc  ， 
model bad = creditlevell creditlevel3 deling debtinc profitrate revenue 
yropen /selection = none; 














run; 


运行 上 述 代 码 ， 除 汇总 信息 外 ， 其 他 部 分 的 输出 结果 如 图 18.17 所 示 。 


模型 收敛 状态 
满足 收 合 准 则 (GCONV=1E-8). 
模型 拟 合 统计 县 
准则 ” 仅 截 距 | 截 距 和 协 变量 
AIC | 4257.525 1872.301 
SC |4263.868 1923.044 
-2 1 | 4255.525 1856.301 


检验 全 局 零 假 设 : BETA=0 
检验 卡 方 | 自由 度 | Pr > 卡 方 
似 然 比 | 2399.2242 7 <.0001 


mr 


评分 “| 1897 2675 7 <0001 








wald : 8A0.7269 1 <.0001 
最 大 似 然 估 计 分 析 
| ”标准 Wald 
参数 自由 度 估计 误差 卡 方 | Pr > 卡 方 
Intercept 1 | -2.3688 | 0.4155 | 32.5065 < .0001 
CREDITLEVELT 1 -1.1946 0.1116 114.5776 <.O0001 
CREDITLEVEL3 1 0.2384 0.0959 6.1885 
DELINQ 1 0.4118 0.04065 /8.3015 <.UUU1 
DEBTINC 1 0.1384 0.0102 182.53061 <.UUU1 
PROFITRATE 1 -1.3416 0.12063 | 112.7193/ <.UUU1 
REVENUE 1 -0.00003 | 1.517E-6 | 322.503/ <.0001 
YROPEN 1 -0.2255 0.0131 | 294.2230 <.0001 
优 比 估计 
959% Wald 
效应 顾 估 计 置信 


CREDITLEVELT1 | 0.303 0.243 0.377 
CREDITLEVEL3 ,| 1.270 1.052 1.532 




















DELINQ 1.509 1.378 | 1.654 
DEBTINC 1.149 | 1.126 | 1.172 
PROFITRATE | 0.261 0.204 0.335 
REVENUE 1.000 1.000 1.000 
YROPEN | 0798 0778 0.819 

预测 概率 和 观测 响应 的 关联 

一 致 部 分 所 占 百分比 94.3 Somers D 0.888 

不 一 致 部 分 所 占 百 分 比 54 Gamma |0.891 

结 值 百分比 0.3 Tau-a 0.289 

对 2869919 c 0.944 


图 18.17 经 过 调整 后 的 模型 输出 结果 


从 图 18.17 可 以 看 出 ， 经 过 调整 后 ， 模 型 中 对 因 变 量 的 预测 均 具 有 显著 作用 ( “Pr> 卡 方 ” 列 最 大 的 为 0.0129， 小 于 0.05 的 默认 值 ) 。 因 此 ， 我 们 可 以 选择 该 模型 作为 初步 模型 ， 进 一 步 用 于 下 一 步 的 模 
型 评估 。 


18.4.2 ”模型 的 评估 


事实 上 ， 在 上 一 步 模型 的 建立 过 程 中 ， 已 经 对 模型 进行 了 评估 : 我 们 发 现 分 类 变量 CREDITLEVEL 中 有 一 个 水 平 在 模型 中 并 没有 显著 性 作用 ， 因 此 对 模型 进行 了 调整 ， 调 整 后 的 模型 不 包含 该 水 平 。 本 节 
讲述 的 模型 评估 是 使 用 验证 数据 集 评估 由 训练 数据 集 建立 起 的 模型 。 一 个 好 的 模型 不 仅 会 在 训练 数据 集 上 有 很 好 的 拟 合 、 分 类 效果 (这 里 以 因 变 量 是 离散 的 分 类 模型 为 例 ) ， 还 要 求 在 验证 数据 集 上 也 有 类 
似 的 效果 。 若 模型 在 验证 数据 集 上 的 分 类 效果 欠 佳 ， 就 需要 考虑 重新 回 到 训 | 练 数据 集 上 ， 对 模型 的 参数 进行 调整 (甚至 可 以 尝试 不 同 的 建 模 方法 ) 和 验证 。 因 此 ， 从 这 个 角度 看 ， 模 型 的 建立 与 评估 可 能 是 
一 个 反复 的 过 程 。 

评估 一 个 模型 好 坏 的 方法 有 很 多 。 以 前 面 建立 起 来 的 LOGISTIC 模 型 来 说 ， 可 以 从 以 下 几 个 方面 对 模型 进行 评估 : 


* 统计 预测 结果 。 统 计 验 证 数据 集中 目标 变量 的 取 值 (已 知 ) 同 模型 预测 出 来 的 目标 变量 的 取 值 之 异同 数 ， 并 计算 出 一 个 预测 正确 或 者 错误 的 比例 。 


. LIFT 图 。LIFT 图 可 以 直观 地 显示 使 用 预测 模型 相对 于 不 使 用 (随机 猜测 ) 的 改进 。 当 存在 多 个 模型 时 ， 可 以 通过 LIFT 对 比 哪个 模型 更 好 。 


例 18.7: 对 模型 预测 结果 进行 统计 ， 评 估 前 面 建 立 的 LOGISTIC 回 归 模 型 。 


在 使 用 训练 数据 集 work.design 进 行 建 模 时 ， 我 们 对 代码 进行 了 稍微 的 修改 ， 包 括 : 使 用 关键 字 OUTMODEL 将 模型 输出 ; 使 用 ?CORE 选 项 进行 打分 。 修 改 后 的 代码 如 下 : 


proc logistic data = work.design desc outmodel = work.estimatel ， 





model bad = creditlevell creditlevel3 deling debtinc pro 








yropen /selection = none; 
Score data= work.design out=scoresl1; 
run; 


运行 上 述 代码 ， 除 了 生成 代码 修改 前 的 输出 结果 外 ， 还 生成 了 数据 集 work.estimate1 以 及 work.scores1。 其 中 ， 数 据 集 work.estimate1 保 存 的 是 模型 的 信息 ， 可 以 在 其 他 的 LOGISTIC 过 程 中 加 以 调 








fitrate revenue 


用 。 数 据 集 work.scores1 如 图 18.18 所 示 ， 该 数据 集 除 包含 原始 数据 集 的 变量 外 ， 还 包含 以 下 几 个 新 的 变量 : 


.FRRBAD (标签 : 


“从 : BAD”) 。 与 BAD 的 取 值 一 样 ， 即 原 数 据 集中 观测 所 属 的 类 。 


:.P_0 (标签 : “预测 概率 : BAD=0”) 。 对 于 原始 数据 集中 的 每 一 条 观测 ， 根 据 模 型 可 以 计算 出 该 观测 属于 “BAD=0” 的 概率 。 
:.P_1 (标签 : “预测 概率 : BAD=1”) 。 对 于 原始 数据 集中 的 每 一 条 观测 ， 根 据 模 型 可 以 计算 出 该 观测 属于 “BAD=1” 的 概率 。 


. 工 BAD (标签 : “到 : 


现 欲 将 该 模型 运用 到 验证 数据 集 smbl validate_ impute 上 。 由 于 模型 中 包含 了 变量 CREDITLEVEL1 和 变量 CREDITLEVEL3 (由 原 分 类 变量 CREDITLEVEL 的 各 个 水 平 转化 而 来 的 ) ， 为 此 ， 需 要 对 验证 数 


据 集 中 的 CREDITLEVEL 进 行 同样 的 操作 。 有 具体 代码 如 下 : 


BAD”) 。 根 据 模 型 判读 出 来 观测 所 属 的 类 别 (判断 的 依据 正 是 P_ 0 与 P_1 的 大 小 ) 。 





proc logistic data = work.smbl] validate impute desc outdesign = work.design2; 











class creditlevel; 





model bad = creditlevel delinqg debtinc pro 





fitrate revenue yropen 





/selection = none; 
ea bay 








Er VIFETTABLE: York. Scoresl (DATA=TORE. DESIGH 的 后 驹 最 竺 = j 


L , 竹本 

PROFITRATE| REYENUE | YROPEN | M:BAD | 到 Bip | EE | 和 = 

1 |03547126601 532? ?7 1 | 0.5071052112 0.4928947888 一 
2 | 0.6702330035 19374 ?1 | 0.8999574377 0.1000425623 
3 | 0.7277368892 9724 2 1 | 0.7954816981 0.2045183119 
4 0 117566 20 l 0.5037219096 0.3962780904 
5 | 0.127210896 3508 1|1 | 0.9220701129 D0.0779298871 
BB | 0.9649698264 12540 1|1 | 0.9657587801 0.0%42412199 
”| 0.0732815709 5124 2 1 1 0.95865323038 0.0413676962 
B |0.3493646223 6429 $ 1 | 0.9698094935 0.0301905065 
| .11663029 gadid 10 0 0 DO0TTiS654 0992224346 
10 0 42444 2 1 | 0.9821310551 0.0179689449 
ll | 0939671226 2523 1 1 | 0.9070728004 0.0929271996 
l2 0 61284 12|1 1 0.8529193653 0.1470806347 
13 0 B054 18 1 0 0.0138652221 0.9861347779 
中 |02685132106 5619 10 1 | 0.8327768547 0.1672231453 
15 | 1.7376175812 116087 12 .0 0 0.00 如 各 7599 0.9960692401 
16 0 29071 5 1 1 0.9212639689 0.0797360313 
17 | 06593939699 6626 20 1 0 0.2520929907 0.7479070093 
19 0 0 2 1 | 0.9906806914 0.0193193186 
19 | 00769739468 6711 6 1 1 0.9148127676 0.0851872324 
20 | 0.8512889388 112408 130 0 0.0013716374 0.9986283626 

21 0 0 4 1 | 0.9700087982 0.0299912016 
mm Mm NN EEDLE hE | 由 [i | 





新 生成 的 数据 集 work.design2 包 含 了 使 用 验证 数据 集 进行 建 模 所 需要 的 全 部 变量 ， 可 以 使 用 回归 模型 (对 应 关键 字 INMODEL=) 对 其 进行 打分 。 


图 18.18 ”数据 集 wotk.scotes1 


代码 如 下 : 





proc logistic inmodel=work.estimatel ， 
score data= work.design2 out=work.scores2; 








接 下 来 ， 就 可 以 分 别 统计 模型 在 训练 数据 集 smbl train_ impute 以 及 验证 数据 集 smbl validate impute 上 的 预测 分 类 效果 了 。 具 体 代码 如 下 : 








proc freq data = = Work.scoresl 
title ' 数 据 集 smbl train _ impute 的 预测 分 类 效果 ，; 
table F BAD*I BAD; 











proc freq data = work.scores2; 
title "数据 集 smbl valigdate impute 的 预测 分 类 效果 '; 
table F BAD*I BAD; 























运行 上 述 代 码 ， 输 出 结果 如 图 18.19 所 示 。 


从 图 18.19 中 可 以 看 出 ， 模 型 在 训练 数据 集 smbl_train_impute 以 及 验证 数据 集 smbl_validate_impute 上 的 “表现 ”是 类 似 的 。 以 两 个 表格 的 F_BAD 取 值 为 0 的 单元 格 为 例 ， 
从 “F_BAD=0” 到 “|_BAD=0”: 在 数据 集 smbl_train_impute 中 ， 有 3341 条 观测 变量 BAD 的 取 值 为 0， 经 过 模型 计算 后 ， 有 3247 条 观测 的 归 类 是 正确 的 ， 所 占 的 比例 为 97.19%， 此 外 ， 有 94 条 观测 的 归 
是 错误 的 ， 所 占 的 比例 为 2.24%。 对 比 验 证 数据 集 smbl_validate_impute， 共 有 1464 条 观测 变量 BAD 的 取 值 为 0， 根 据 模型 预测 ， 有 1427 条 观测 的 归 类 是 正确 的 ， 所 占 的 比例 为 97.47%， 此 外 ， 有 37 条 观 








测 的 归 类 是 错误 的 ， 比 例 为 .53%。 从 预测 分 类 效果 角度 看 ， 由 训练 数据 集 得 到 的 模型 在 验证 数据 集 上 有 着 类 似 的 效果 ， 即 模型 适用 于 验证 数据 集 。 
数据 集 smbl_train_impute 的 预测 分 类 效果 “数据 集 smbl_validate _impute 的 预测 分 类 效果 
FREQ 过 程 FREQ 过 程 
频数 表 -F_BAD*I| BAD 频数 表 -F_BAD*I BAD 
So |_BAD( 到 : BAD) on 1_BAD( 到 : BAD) 
到 白 分 比 FF BAD(M: BAD) 0 1 音 计 列 白 分 比 F_BAD( 从 BAD) 0 1 洛 计 
77 31 224 55 
dg7.19. 2.81 
93.49 12.93 
1 22b bb33 B59 1 号 1 有 2245 二 3 
S38 15.07 20.45 S06 1361 1867 
a6.31 73.69 a7 08 7 站 
651 S707 599 有 6 
侣 计 4173 CJ 4200 侣 计 1518 282 1800 
82.69 17.31 100.00 84.33 15.67 100.00 


图 18.19 ”模型 在 训练 数据 集 以 及 验证 数据 集 上 的 预测 分 类 效果 对 比 


接 下 来 ,我们 从 另外 一 个 角度 ， 即 LIFT 图 ， 来 评估 前 面 建立 的 LOGISTIC 模 型 。 从 前 面 的 数据 集 work.scores1 中 ， 我 们 可 以 看 出 每 一 条 观测 都 有 一 定 的 概率 属于 “BAD=1” ( 即 变 量 BAD 的 取 值 为 1) ， 
其 中 ， 变 量 为 P_1 的 取 值 即 为 概率 的 大 小 。 我 们 可 以 将 数据 集 work.scores1 按 照 变 量 P_1 的 取 值 从 大 到 小 进行 排序 ， 将 数据 集 分 成 若干 个 组 ， 这 里 我 们 将 数据 集 分 为 10 组 。 考 虑 第 1 组 ， 该 组 内 变量 P_1 的 取 
值 较 大 。 如 果 模 型 是 准确 的 ， 那 么 实际 中 ， 该 组 中 BAD 取 值 为 1 的 观测 比例 也 应 该 较 多 ， 记 该 比例 为 p1。 如 果 不 使 用 模型 预测 (随机 预测 ) ， 那 么 BAD 取 值 为 1 的 概率 p2 应 该 与 原始 数据 集中 BAD 的 比例 一 
致 ， 即 859/4200=0.2045 ( 见 图 18.18) 。 现 考虑 '…) “该 值 越 大 ， 说 明 模 型 在 该 组 内 的 预测 效果 越 好 。 


与 第 1 组 相反 ， 在 第 10 组 中 ， 变 量 P_1 的 值 较 小 ， 因 此 比例 的 取 值 应 该 也 很 小 ， 相 应 的 ， 


二 维 图 的 形式 表示 出 来 就 形成 了 LIFT 图 。 


整个 p 值 也 会 较 小 。 据 此 可 以 推测 ， 一 个 好 的 模型 ， 其 p 值 应 该 是 呈现 出 逐渐 下 降 的 趋势 。 将 上 述 所 有 组 的 p 值 用 


例 18.8: 使 用 LIFT 图 评估 前 面 建 立 的 LOGISTIC 回 归 模型 


首先 考虑 训练 数据 集 的 LIFT 图 。 训 练 数据 集 对 应 的 得 分 数据 集 为 work.scores1， 先 将 得 分 数据 集 按照 变量 P_1 的 值 进 行 降序 排列 ， 排 序 后 的 数据 集 为 work.sorted s1。 
中 的 观测 进行 分 组 标记 ， 每 420 条 为 一 组 ， 共 10 组 ， 标 记 后 的 数据 集 为 work.temp。 然 后 ， 计 算数 据 集 work.temp 中 的 每 一 组 对 应 的 p 值 ， 
work.plot 进 行 作 图 ， 得 到 LIFT 图 。 具 体 代码 如 下 : 


接着 ， 对 数据 集 work.sorted _s1 
共 10 组 ， 然 后 将 p 值 输出 到 数据 集 work.plot。 最 后 ， 对 数据 集 





proc sort data = work.scoresl out = work.sorted sl; by descending P 1; run; 
data work.temp; 
set work.sorted sil; 
group = ceil( N /420); 
run; | 
data work.plot; * 根 据 分 组 标记 ， 对 每 组 内 的 观测 求 p 值 ; 
set work.temp; 
group; 
first.group then sum =0; 
if last.group then 
do; 



































avg = (sum/420); 
p= (100*avg)/(859/4200); 
output; 
end; 
else sum + BAD; 





run’y 

proc sgplot data = work. plot; * 画 图 ; 
title "训练 数据 集 LIFT 图 "; 
series x= group y= p >。 markers; 

run; 











同样 地 ， 可 以 根据 数据 集 work.score2 作 出 验证 数据 集 的 LIFT 图 。 具 体 代码 如 下 : 


proc sort data = work.scores2 out = work.sorted s2; by descending P 1; run; 
data temp; 

set work.sorted s2; 

group = ceil( N /180); 
run; | 


data plot; * 根 据 分 组 标记 ， 对 每 组 内 的 观测 求 p 值 














NAN。 


























set temp; 
by group; 
if first.group then sum =0; 
if last.group then 
do; 
avg = (sum/180); 
p= (100*avg)/(336/1800); 
output; 
end; 





else sum + BAD; 
run; 
proc sgplot data = plot; * 男 图 ; 
title "验证 数据 集 LIFT 表 "; 
series x= group y = p / markers; 
run; 




















运行 上 述 两 段 代码 ， 输 出 结果 如 图 18.20 所 示 。 
从 LIFT 图 中 可 以 看 出 : 
. 模型 从 左 到 右 呈 下 降 趋 热 ， 使 用 模型 比 不 使 用 模型 的 效果 要 好 。 例 如 ， 从 训练 数据 集 的 LIFT 图 可 以 看 出 ， 在 第 1 组 ，p 值 约 为 480， 说 明 使 用 模型 辨别 BAD=1 的 效率 是 不 是 用 模型 效率 的 4.8 倍 。 


` 训练 数据 集 的 LIFT 图 与 验证 数据 集 的 LIFT 图 趋势 一 样 ， 形 状 类 似 。 这 说 明 ， 由 训练 数据 集 建立 起 来 的 模型 也 适用 于 验证 数据 集 。 这 与 我 们 先前 根据 统计 分 类 效果 得 出 的 结论 是 一 致 的 。 


训练 救 据 集 LIFT 图 验证 数据 集 LIFT 图 
500 cflot 对 笠 
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图 18.20 训练 数据 集 LIFT 图 与 验证 数据 集 LIFT 图 对 比 


综合 例 18.5 至 例 18.8， 从 模型 的 拟 合 效果 、 数 据 的 预测 效果 可 以 认为 该 模型 适合 用 于 下 一 步 实 施 。 


18.4.3 ”模型 的 实施 


经 过 模型 评估 阶段 ， 模 型 已 经 最 终 确定 下 来 ， 确 定 下 来 的 模型 可 以 进一步 用 于 实施 了 。 回 顾 前 面 的 LOGISTIC 回 归 模 型 (图 18.17) ， 模 型 中 参数 的 最 大 似 然 估计 分 析 如 图 18.21 所 示 。 


jpn 标准 Wald 
参数 自由 度 估计 误差 卡 方 ] Pr > 卡 7 


Intercept 1 -2.3688| 0.4155 32.5065| <.0001 
CREDITLEVEL1 1| -1.1946| 0.1116 | 114.5776 | <.0001 
CREDITLEVEL3 1 02384| 00959 61885 00129 
DELINO 1 0.4118| 00465 | 78.3015 | <.0001 
DEBTINC 1 01384| 0.0102 182.5361 <.0001 
PROFITRATE 1| -1.3416| 01263 | 112.7937 | <.0001 
REVENUE 1 | -0.00003 | 1.517E-6 | 322.5637 | <.0001 
YROPEN -0.2255| “0.0131 294.2230 | <.0001 


一 二 


图 18.21 _ LOGISTIC 回归 模型 的 最 大 似 然 估 计 分 析 
从 图 18.21 可 以 得 到 模型 的 数学 表达 式 如 下 : 
ET = — 2.3688 - 1.1946 * CREDITLEVEL(1) +0.2384 * CREDITLEVEL(3) 
= 
+ 0.4118 * DELINQO + 0. 1384 * DEBTINGC - 1.3416 * PROFITRATE 
一 0. 00003 * REVENUE -0.2255 * YROPEN 


其 中 ， 
1 当 CREDITLEVEL 的 水 平 值 为 1 
CREDITLEVEL(1) = | 1 当 CREDITLEVEL 的 水 平 值 为 4 
0 其 他 
1 当 CREDITLEVEL 的 水 平 值 为 3 
CREDITLEVEL(3) = | 1 当 CREDITLEVEL 的 水 平 值 为 4 
0 其 他 


公式 中 的 p 值 为 观测 属于 “BAD=1” 的 概率 。 在 实际 应 用 中 ， 用 这 个 数学 表达 式 对 新 的 数据 集 (目标 变量 取 值 未 知 ) 进行 计算 ， 对 于 每 一 个 新 增 的 贷款 申请 ， 可 以 计算 出 该 申请 属于 “BAD=1” 的 概率 
值 p， 进 而 根据 p 值 大 小 决定 是 否 发 放贷 款 。 


18.5 ”本 章 小 结 


本 章 介 绍 了 SAs 数 据 挖 掘 的 一 般 流程 : 从 确定 商业 问题 、 准 备 数据 、 对 数据 进行 探索 加 工 ， 到 模型 的 建立 、 评 估 与 实施 。 为 了 使 读者 更 容易 理解 这 一 过 程 ， 我 们 使 用 了 一 个 例子 贯穿 整个 过 程 。 这 个 处 
理 过 程 分 布 于 数据 挖 扎 的 流程 中 ， 表 18.4 总 结 归 纳 了 整个 例子 。 


表 18.4 本 章 例子 的 归纳 、 总 结 


例 子 操作 与 说 明 


例 18.1 对 输入 数据 集 变 量 类 型 以 及 作用 进行 归 类 

例 18.2 对 数据 集中 的 变量 进行 选择 

例 18.3 对 数据 集 进 行 划 分 ， 划 分 成 训练 数据 集 与 测试 数据 集 
例 18.4 对 数据 集中 的 缺失 值 进行 处 理 

例 18.5 对 训练 数据 集 进行 建 模 

例 18.6 对 训练 数据 集 建立 起 来 的 模型 进行 调整 

例 18.7 模型 评估 ， 统 计 模 型 预测 结果 

例 18.8 异型 评估 ， 使 用 LIFT 图 


需要 指出 的 是 ， 并 不 是 每 一 个 项 目 都 必须 经 过 或 局 限于 上 述 步骤 ， 步 又 之 间 的 顺序 也 是 可 以 灵活 调整 的 。 


第 三 篇 ”SAS 优化 建 模 


第 19 章 ”运筹 学 概述 

第 20 章 ”线性 规划 

第 21 章 ”运用 PROC OPTMODEL 建 立 线性 规划 模型 
第 22 章 “PROC OPTMODEL 程 序 设计 

第 23 章 ”整数 线性 规划 和 混合 整数 线性 规划 


第 24 章 ”优化 建 模 实例 


第 19 章 “运筹 学 概述 


运筹 学 是 应 用 恰当 的 科学 技术 知识 和 数学 方法 对 实际 问题 进行 研究 ， 从 而 提供 量化 分 析 依 据 以 及 最 优 方案 ， 帮 助 决策 的 一 门 学 科 。 本 书 第 2 篇 介绍 的 统计 分 析 方 法 ， 可 以 分 析 我 们 关心 的 事件 “正在 发 生 
什么 ”、“ 接 下 来 出 现 的 会 是 什么 样 ”和 “按照 现在 的 趋势 发 展 将 来 会 坛 么 样 ”。 而 现在 要 介绍 的 ， 则 是 如 何 运 用 运筹 学 的 知识 对 未 来 会 发 生 的 事情 进行 规划 ， 作 出 最 优 决 策 ， 做 到 “让 未 来 最 好 ”。 我 国 
古代 就 有 “运筹 帷 幅 、 决 胜 干 里 ”之 说 ， 著 名 的 例子 有 “田鼠 赛马 ”、 “围魏救赵 ”、“ 了 渭 修 言 ”等 。 


在 国外 ， 运 筹 学 被 称 为 Operations Research， 简 称 OR， 其 思想 可 以 追溯 到 19 世 纪 中 期 ， 第 二 次 世界 大 战 以 后 得 到 了 广泛 的 应 用 。 运 筹 学 的 发 展 几 乎 与 计算 机 技术 同步 。20 世 纪 60 年 代 初 ， 由 大 规模 集 
成 电路 作为 元 件 的 计算 机 的 问世 ， 使 得 求解 各 种 复杂 的 数学 模型 成 为 可 能 ， 这 为 运筹 学 赢得 了 迅速 发 展 的 黄金 时 期 。 如 今 ， 运 筹 学 已 经 进入 大 系统 问题 时 代 。 作 为 一 个 优秀 的 运筹 工作 者 ， 不 仅 要 具备 分 析 
问题 和 解决 问题 的 能 力 ， 还 要 尽 可 能 多 地 掌握 现 有 的 各 种 应 用 数学 方法 ， 而 且 要 能 熟练 使 用 运筹 优化 软件 ， 这 样 ， 才 能 在 面 对 实际 问题 时 游 思 有余。 


本 章 将 介绍 运筹 学 的 一 些 基本 概念 、 在 运筹 学 中 处 于 重要 地 位 的 线性 规划 问题 和 整数 规划 问题 的 基本 理论 ， 以 及 如 何 运用 SAS/OR 软 件 对 这 类 问题 进行 求解 。 


1. 发 展 历史 


运筹 学 的 朴素 思想 ， 可 以 追溯 到 公元 前 400 年 前 中 国 古代 著名 军事 学 家 孙武 的 《孙子 兵法 》 中 有 关 思 想 的 描述 。 作 为 中 国 古 代 运 筹 思想 的 先行 者 和 实践 者 ， 孙 武 提 出 了 许多 关于 合理 运用 人 力 、 物 力 获 
取 战 争 胜利 的 见解 ， 从 运筹 的 正确 与 否 天 系 到 战争 的 胜 败 这 样 的 高 度 来 考察 运筹 问题 ， 突 出 了 先 谋 后 战 、 以 谋 为 本 的 重要 作用 ， 体 现 了 丰富 的 军事 运筹 思想 。 


在 西方 ， 军 事 运 筹 学 中 的 兰 彻 斯 特 战斗 方程 是 于 1914 年 提出 的 ， 丹 麦 工 程 师 爱 尔 朗 于 1917 年 提出 排队 论 的 一 些 著名 公式 ， 列 温 逊 于 1920 年 研究 了 商业 运筹 学 中 的 零售 问题 。 运 筹 学 作为 一 门 学 科 是 在 
第 二 次 世界 大 战 期 间 ， 在 研究 武器 的 配置 、 兵 力 的 部 署 和 军需 品 的 调运 问题 时 产生 的 。Operations Research 这 个 名 词 最 早出 现 于 1938 年 ， 当 时 英国 波 得 塞 雷达 站 的 负责 人 A.P. 洛 维 为 了 研究 整个 防空 作战 
系统 的 合理 运作 ， 以 便 有 效 地 防备 德国 飞机 入 侵 ， 成 立 了 由 各 方面 科学 家 组 成 的 研究 小 组 ， 并 以 OR 命名 了 这 种 研究 活动 。 第 二 次 世界 大 战 期 间 ， 运 筹 学 已 经 有 了 很 大 的 发 展 ， 战 后 其 研究 重点 转向 了 民用 部 
门 ， 同 样 也 获得 了 成 功 。1947 年 ， 美 国 数学 家 G.B.Dantzig 提 出 了 求解 线性 规划 的 有 效 方 法 一 一 单纯 形 法 ， 并 于 20 世 纪 50 年 代 初 成 功 应 用 于 电子 计算 机 求解 线性 规划 。 到 20 世 纪 50 年 代 未 期 ， 发 达 国 家 已 对 
企业 中 的 一 些 普 遍 性 问题 ， 如 库存 、 资 源 分 配 、 设 备 更 新 、 任 务 分 派 等 进行 研究 ， 并 成 功 地 将 OR 应 用 到 建筑 、 纺 织 、 钢 铁 、 煤 炭 、 石 油 、 电 力 、 农 业 等 行业 。 到 20 世 纪 60 年 代 ， 运 筹 学 已 经 应 用 到 服务 性 
行业 和 社会 公用 事业 。 





2. 内 容 分 支 

运筹 学 包括 多 个 分 支 : 规划 论 (包括 线性 规划 、 非 线性 规划 、 整 数 规划 和 动态 规划 等 ) 、 库 存 论 、 决 策 分 析 、 排 队 论 、 博 弈 论 、 图 论 、 可 靠 性 理论 等 ， 这 些 分 支 构成 了 一 个 完整 的 运筹 学 理论 体系 。 现 
在 对 部 分 常见 的 分 支 作 简要 介绍 。 

1) 规划 论 也 称 为 数学 规划 ， 是 运筹 学 的 一 个 重要 分 支 ， 主 要 包括 线性 规划 、 非 线性 规划 、 整 数 规 划 、 目 标 规划 和 动态 规划 。 研 究 内 容 与 生产 活动 中 有 限 资源 的 分 配 有 关 ， 在 组 织 生产 的 经 营 管理 活动 


中 ， 规 划 论 具有 极为 重要 的 地 位 和 作用 。 它 主要 解决 两 个 方面 的 问题 ， 一 是 对 于 给 定 的 人 力 、 物 力 和 财力 ， 怎 样 才能 发 挥 它们 的 最 大 效益 ; 二 是 对 于 给 定 的 任务 ， 怎 样 才能 用 最 少 的 人 力 、 物 力 和 财力 去 完 
成 嘱 。 这 两 个 方面 有 一 个 共同 特点 ， 即 在 给 定 的 条 件 下 ， 按 照 某 一 衡量 指标 来 寻找 最 优 方案 。 有 具体 来 讲 ， 线 性 规划 可 以 解决 生产 过 程 的 优化 、 物 流 运输 以 及 资源 配置 的 优化 问题 等 ;整数 线性 规划 可 以 求解 


企业 的 投资 决策 问题 、 旅 行 售货员 问题 (Traveling Sales Problem) 等 ; 目标 规划 是 线性 规划 的 一 种 特殊 应 用 ， 主 要 处 理 在 多 种 目标 的 情况 下 ， 选 择 合理 方案 的 问题 ， 而 动态 规划 所 研究 的 对 象 是 多 阶段 决 
策 问题 ， 主 要 用 来 解决 最 短路 径 问 题 、 多 阶段 资源 分 配 问 题 、 生 产 和 库存 控制 及 设备 更 新 等 问题 。 例 如 ， 某 家 制造 公司 利用 线性 规划 的 科学 理论 对 生产 的 成 本 和 劳动 力 进行 分 配 ， 使 得 企业 节约 了 10% 的 生 
产 制造 费用 。 此 外 ， 规 划 论 还 可 以 用 于 生产 作业 计划 、 日 程 表 的 编排 、 配 料 问 题 等 方面 。 

2) 库存 论 ， 也 称 为 存储 论 ， 它 是 研究 物资 库存 策略 的 理论 ， 主 要 研究 的 是 在 生产 和 消费 过 程 中 ， 原 材料 、 半 成 品 或 者 商品 的 存储 问题 。 当 存储 少 了 的 时 候 ， 会 因 停 工 待 料 或 失去 销售 机 会 而 遭受 损失 ， 
而 存储 多 了 又 会 造成 资金 积压 、 原 材料 及 商品 的 损耗 。 因 此 ， 如 何 确定 合理 的 库存 、 补 货 量 和 补 货 周 期 至 关 重 要 ， 这 便 是 库存 论 。 合 理 的 库存 可 以 减少 资金 占用 、 费 用 支出 和 不 必要 的 周转 ， 缩 短 物 资 流通 
周期 ， 加 速 再 生产 的 过 程 等 。 常 见 的 库存 控制 模型 有 确定 性 库存 模型 和 随机 性 库存 模型 。 针 对 库存 物资 的 不 同 特性 ， 可 选用 相应 的 库存 控制 模型 和 补 货 策略 ， 制 定 出 一 个 合理 的 库存 系统 。 


3) 所 谓 决策 分 析 ， 就 是 根据 客观 可 能 性 ， 借 助 一 定 的 理论 、 方 法 和 工具 ， 分 析 问 题 并 提出 可 行 方案 ， 以 及 研究 从 多 种 可 供 选择 的 行动 方案 中 选择 最 优 方案 的 方法 。 决 策 问题 通常 分 为 3 种 类 型 : 确定 型 
决策 、 风 险 型 决策 和 不 确定 型 决策 。 经 济 领域 中 利用 决策 分 析 解 决 的 问题 有 : 企业 管理 者 指定 投资 、 生 产 计划 、 物 资 调运 计划 、 新 产品 销路 、 新 股 发 行 的 变化 问题 等 。 


4) 排队 论 ， 也 称 为 随机 服务 系统 理论 ， 是 专门 研究 由 于 随机 因素 的 影响 而 产生 拥挤 现象 的 科学 ， 主 要 用 于 解决 系统 服务 设施 和 服务 水 平 之 间 的 平衡 问题 ， 力 争 以 较 低 的 投入 提供 更 好 的 服务 。 排 队 现 象 
在 日 常生 活 中 屡见不鲜 ， 如 机 器 等 待 修理 、 船 舶 等 待 装 卸 、 顾 客 等 待 服务 ， 等 等 。 当 然 ， 该 现象 在 经 济 领域 中 也 很 多 见 ， 如 银行 的 信用 卡 申 请 系统 在 核实 信息 、 审 查 过 程 、 等 待 工作 人 员 操 作 等 。 这 些 问题 
有 一 个 共同 点 ， 即 若 等 待 时 间 过 长 ， 会 影响 生产 任务 的 完成 ， 或 者 影响 经 济 效益 ， 比 如 顾客 会 选择 自动 离 去 而 影响 了 业绩 ; 若 增加 修理 工 、 装 卸 码 头 和 服务 台 ， 能 够 解决 等 待 时 间 过 长 的 问题 ， 但 是 又 会 带 
来 修理 工 、 码 头 和 服务 台 空 闲 的 损失 。 排 队 论 就 是 研究 这 类 问题 的 理论 。 


5) 博 讲 论 ， 简 单 地 说 ， 是 指 两 个 或 多 个 参与 者 在 平等 的 对 局 中 各 自 根 据 对 方 的 策略 变换 自己 的 对 抗 策略 ， 以 达到 取胜 目标 的 理论 ， 也 叫做 对 策 论 。 它 是 现代 数学 的 一 个 新 分 支 ， 也 是 运筹 学 的 一 个 重要 
理论 。 事 实 上 ， 博 弈 论 簿 生 于 古老 的 游戏 或 博弈 ， 如 象棋 、 扑 克 等 。 数 学 家 们 将 具体 的 问题 抽象 化 后 ， 再 建立 完备 的 逻辑 框架 和 体系 来 研究 其 规律 和 变化 。《 史 记 》 中 记载 的 田鼠 赛马 的 故事 就 是 一 个 典型 
的 博弈 论 故 事 。 田 尽 用 自己 的 上 等 马 、 中 等 马 和 下 等 马 ， 分 别 对 弈 齐 威 王 的 中 等 马 、 下 等 马 和 上 等 马 ， 最 后 获得 了 比赛 的 胜利 。 从 赛马 的 故事 中 可 以 看 出 ， 对 奔 者 要 想 在 比赛 中 获胜 ， 必 须 能 准确 地 判断 出 
己方 的 优势 和 劣势 ， 从 而 采取 相应 的 战术 。 


3. 应 用 领域 


半 个 多 世纪 以 来 ， 运 筹 学 一 直 保持 着 运用 科学 的 方法 解决 重大 实际 问题 的 特点 ， 并 因此 获得 了 强大 的 生命 力 。 它 的 每 一 分 支 都 有 明显 的 实际 背景 ， 并 且 都 和 一 定 的 经 济 形势 相 联系 。 运 筹 学 在 管理 领域 
的 应 用 至 少 体现 在 以 下 几 方 面 。 

1) 市 场 销售 。 主 要 应 用 在 广告 预算 和 媒介 的 选择 、 竞 争 性 定价 、 新 产品 开发 、 销 售 计划 的 制定 等 方面 。 

2) 生产 计划 。 主 要 用 于 确定 生产 、 存 储 和 劳动 力 的 配置 计划 等 方面 ， 以 适应 波动 的 需求 ;还 可 以 用 于 生产 作业 计划 、 日 程 表 的 编制 等 环节 ;也 可 以 用 于 合理 下 料 、 配 料 和 物料 管理 等 方面 。 


3) 库存 管理 。 主 要 应 用 于 设 定 多 种 物资 库存 量 ， 以 确定 某 些 设备 的 能 力 或 容量 ， 如 停车 场 的 大 小 、 新 增发 电 设 备 的 容量 大 小 、 合 理 的 水 库容 量 等 。 目 前 ， 国 外 的 趋势 是 将 库存 理论 与 计算 机 物资 管理 系 
统 相 结合 ，SAS 公 司 也 推出 了 用 于 库存 管理 的 SAS/IRP 产 品 ， 帮 助 企业 对 单 层级 或 者 多 层级 的 供应 链 进 行 管理 ， 计 算 合理 的 目标 库存 水 平 、 安 全 库存 和 补 货 量 等 指标 。 


4) 运输 问题 ， 这 里 涉及 空运 、 水 运 、 公 路 、 铁 路 、 管 道 和 场 内 等 运输 问题 。 空 运 问题 涉及 飞行 航班 和 飞行 机 组 人 员 服 务 时 间 安 排 等 。 为 此 ， 在 国际 运筹 学 协会 中 专门 设 有 航空 组 ， 以 研究 空运 中 的 运筹 
学 问题 。 水 运 包 括 船舶 航运 计划 、 港 口 装卸 设备 的 配置 和 船 到 港口 后 的 运行 安排 等 。 公 路 运输 除了 汽车 调度 计划 外 ， 还 有 公路 网 的 设计 和 分 析 ， 市 内 公共 汽车 线路 的 选择 和 行车 时 刻 表 的 安排 ， 出 租 汽车 的 
调度 和 停车 场 的 设立 等 。 当 然 ， 铁 路 运输 方面 的 应 用 也 很 多 。 


5) 人 事 管理 ， 这 里 涉及 6 个 方面 ， 首 先是 人 员 的 获得 和 需求 估计 ; 第 二 是 人 才 的 开发 ， 即 进行 教育 和 培训 ;第 三 是 人 员 的 分 配 ， 主 要 是 各 种 指派 问题 ; 第 四 是 各 类 问题 的 合理 利用 ; 第 五 是 人 才 的 评 
价 ， 其 中 有 如 何 测定 一 个 人 对 企业 和 社会 的 贡献 ; 第 六 是 工资 和 津贴 的 确定 等 。 


6) 城市 管理 ， 这 里 包括 各 种 紧急 服务 系统 的 设计 和 运用 ， 如 消防 站 、 救 护 车 、 警 车 等 分 布点 的 设立 等 。 美 国 曾 用 排队 论 方法 来 确定 纽约 市 紧急 电话 站 的 值班 人 数 ， 加 拿 大 曾 研究 一 城市 的 警车 的 配置 和 
负责 范围 ， 以 及 出 现 事故 后 警车 应 走 的 路 线 等 。 


7) 定价 管理 ， 根 据 成 本 、 现 有 库存 、 需 求 模式 以 及 竞争 者 价格 ， 合 理 确定 每 天 或 者 每 一 阶段 产品 的 销售 价格 。 


19.2 ”优化 模型 的 基本 概念 


本 书 中 将 重点 介绍 在 运筹 学 中 占 重 要 地 位 的 线性 规划 和 整数 规划 模型 ， 并 学 习 如 何 运用 SAS/OR 对 这 类 模型 进行 求解 ， 这 里 的 数学 模型 都 是 规范 模型 (Prescriptive models) ， 也 称 为 优化 模型 


(Optimization models) 。 一 个 优化 模型 包含 以 下 3 个 部 分 : 


. 约束 条 件 


简单 地 讲 ， 优 化 模型 的 求解 就 是 ， 寻 找 使 得 目标 函数 达到 最 优 (最 大 或 者 最 小 ) 的 决策 变量 的 取 值 ， 同 时 ， 让 这 些 决策 变量 的 值 满足 给 定 的 约束 条 件 ， 这 一 求解 过 程 称 为 数学 优化 (mathematical 
optimization) ， 或 者 简称 为 优化 (Optimization) 。 


例 19.1: 某 工 厂 计划 安排 甲 、 乙 两 种 产品 的 生产 ， 它 们 的 耗材 (公斤 /单位 ) 和 利润 (元 /单位 ) 状况 如 表 19.1 所 示 。 该 工厂 要 如 何 安排 生产 才能 使 得 利润 最 大 ? 





产品 甲 产品 乙 资源 量 
材料 A 2 3 18 
材料 B 2 ] 10 
材料 C ] 4 16 
利润 4 6 





假设 该 工厂 生产 x1 个 单位 的 产品 甲 ， 生 产 x2 个 单位 的 产品 乙 ， 则 其 利润 函数 为 : 


利 洞 三 4x1 十 OX2? 


1. 目 标 函 数 
在 很 多 模型 中 ， 都 有 一 个 我 们 希望 最 大 化 或 者 最 小 化 的 函数 ， 这 个 函数 就 称 为 目标 国 数 。 在 例 19.1 中 ， 工 厂 希 望 合适 安排 生产 ， 使 得 利润 能 够 达到 最 大 ， 那 么 利润 函数 就 是 该 优化 问题 的 目标 函数 。 
很 多 情况 下 ， 在 解决 企业 的 实际 问题 时 ， 都 会 涉及 多 个 目标 浮 数 。 如 ， 在 ATM 取 款 机 的 现金 补给 优化 问题 中 ， 客 户 希望 在 安排 ATM 取 款 机 现金 补给 的 过 程 中 能 够 考虑 以 下 目标 : 
最 小 化 所 有 ATM 取 款 机 发 生 现金 短缺 的 时 间 
最 小 化 所 有 ATM 取 款 机 发 生 现 金 短 缺 的 次 数 
` 最 小 化 缺 货 量 
“ 最 小 化 补给 次 数 
` 最 小 化 资金 占用 成 本 
在 后 面 的 章节 中 ， 将 会 介绍 如 何 解决 多 目标 规划 问题 。 
2. 决 策 变 量 


决策 变量 也 称 为 控制 变量 或 者 操作 变量 。 我 们 可 以 通过 控制 这 些 决 策 变 量 来 控制 或 者 影响 整个 系统 。 在 例 19.1 中 ， 产 品 甲 和 产品 乙 的 产量 x1 和 x2 就 是 决策 变量 。 


3. 约 束 条 件 


在 很 多 情况 下 ， 决 策 变量 并 不 是 可 以 任意 取 值 的 。 在 例 19.1 中 ， 产 品 甲 或 者 产品 乙 的 产量 必须 是 整数 个 单位 ， 不 可 以 只 生产 1/2 个 单位 或 者 1/3 个 单位 ， 并 且 产 品 的 产量 不 可 以 是 负 值 。 由 于 材料 A、B、 
的 供给 有 限 ， 因 此 产品 产量 也 不 可 能 任意 大 ， 并 且 若 多 生产 了 产品 甲 ， 可 能 就 要 少 生产 产品 乙 。 这 种 决策 变量 必须 满足 的 条 件 就 称 为 约束 条 件 。 例 19.1 中 的 材料 约束 如 下 : 


也 


* 材料 A 的 资源 量 最 多 为 18 公 斤 。 
. 材料 B 的 资源 量 最 多 为 10 公 斤 。 
* 材料 C 的 资源 量 最 多 为 16 公 斤 。 
用 数学 公式 可 以 将 约束 表示 为 如 下 形式 : 


2x1+3x> 夺 18 
2X1 十 Xo 三 10 


x1+4x 入 10 


x1，x2 都 为 整数 

令 f (x1，x2) 表示 目标 国 数 ， 也 就 是 这 里 的 利润 函数 ， 这 个 例子 的 完整 的 优化 模型 则 可 以 表示 为 : 
Maximizef (xl，xo) =4x1+6x» 

st. 2xi+3xo<18 

2xj+x<10 


Xx1 十 4x> 委 10 


xl1，x2 都 为 整数 

其 中 ，“s.t.” 是 Subject to 的 简写 ， 表 示 “ 使 得 ” 。 
概括 起 来 讲 ， 优 化 模型 的 一 般 形式 可 以 表示 为 : 
Te 


St Ci (x) 全 人 一 ， >}b; (i=1, 2 n) 


其 中 ，x 是 决策 变量 ，f (x) 是 目标 函数 ，ci (x) 和 x 的 取 值 界限 是 决策 变量 x 的 约束 条 件 ，bi 是 模型 的 参数 。 目 标 函数 和 约束 条 件 可 以 线性 的 或 者 非 线性 的 ， 约 束 条 件 可 以 是 有 界 约束 
(如 ,1j<%j<uj) 、 等 式 约束 (如 ，ci (x) =bi) 、 不 等 式 约束 (如 ，ci (x) <bi) 或 者 整数 约束 (如 ，x1，x2 都 为 整数 ) 。 


所 有 满足 约束 条 件 的 决策 变量 的 取 值 集合 称 为 可 行 域 (Feasible region) ， 在 可 行 域 中 ， 使 得 目标 函数 取得 最 优 值 的 决策 变量 的 取 值 称 为 最 优 解 (Optimal solution) 。 


19.3 ”优化 模型 的 分 类 


1. 静 态 模 型 和 动态 模型 


根据 系统 是 否 随时 间 变 化 而 变化 ， 优 化 模型 可 以 分 为 静态 模型 和 动态 模型 两 种 。 静 态 模型 是 指 决 定 系统 特征 的 因素 不 随时 间 推 移 而 变化 的 模型 。 在 现实 世界 中 ， 不 存在 绝对 的 静态 系统 ;静态 系统 的 假 


定 本 身 是 对 系统 的 一 种 简化 。 若 系统 对 象 的 主要 特征 在 我 们 所 关心 的 时 间 段 不 发 生 明显 变化 ， 或 者 发 生 的 变化 对 系统 的 整体 性 质 没有 明显 影响 ， 则 把 一 个 系统 看 成 是 静态 的 是 一 种 明智 的 选择 。 一 般 而 言 ， 
静态 模型 相对 比较 简单 ， 建 立 静 态 模型 的 关键 就 是 找到 模型 的 平衡 天 系 ， 并 用 数学 公式 将 其 表示 出 来 。 例 19.1 中 的 模型 就 是 一 个 静态 模型 
润 达到 最 大 。 


模型 的 最 优 解 将 告诉 工厂 如 何 安排 生产 可 以 使 得 所 有 时 间 段 的 利 
动态 模型 是 指 系统 的 状态 随时 间 推 移 而 变化 的 模型 。 动 态 模型 根据 时 间 的 可 分 性 分 为 离散 性 动态 模型 和 连续 性 动态 模型 两 大 类 。 离散 性 动态 模型 是 指 模型 中 的 时 间 变 量 采 用 离散 的 形式 ， 连 续 性 动态 模 
型 是 指 模型 中 的 时 间 变 量 采用 连续 的 形式 。 


例如 ， 一 家 生产 运动 服饰 的 公司 根据 需求 安排 未 来 一 年 的 生产 计划 就 是 一 个 动态 问题 
动态 模型 。 


， 该 公司 必须 决策 未 来 一 年 里 每 个 季度 的 产量 ， 该 决策 涉 


及 多 个 阶段 (多 个 季度 ) ， 因 此 ， 解 决 该 问题 时 需要 建立 
2. 线 性 模型 和 非 线性 模型 


根据 优化 模型 中 目标 函数 和 约束 条 件 的 特征 ， 可 将 优化 模型 分 为 线性 模型 和 非 线 性 模型 。 在 目标 遂 数 和 约束 条 件 中 ， 如 果 决 策 变量 都 是 线性 形式 ， 则 优化 模型 为 线性 模型 ， 如 果 目 标 函 数 或 者 约束 条 件 
中 含有 决策 变量 的 非 线 性 形式 ， 则 优化 模型 为 非 线 性 模型 。 型 
模型 的 建 模 和 求解 。 


例 19.1 中 优化 模型 的 目标 函数 和 约束 条 件 都 是 决策 变量 x1 和 x2 的 加 法 形式 ， 因 此 ， 该 模型 是 一 个 线性 模型 


在 第 20 章 和 21 章 中 ， 将 重点 讨论 线性 
3. 整 数 模型 和 非 整数 模型 


根据 优化 模型 中 决策 变量 的 取 值 特征 ， 可 将 优化 模型 分 为 整数 模型 和 非 整 数 模型 
取 值 都 可 以 是 分 数 或 者 小 数 ， 则 模型 为 非 整 数 模型 


旦 口 台 


PZY 
里 一 月 


如 果 模 型 中 的 一 个 决策 变量 或 者 多 个 决策 变量 的 取 值 只 
。 例 19.1 中 ， 产 品 甲 和 产品 乙 的 数 


能 是 整数 ， 则 模型 为 整数 模型 ;如 果 模 型 中 的 所 有 决策 变量 的 
外 整数 ， 显 然 ， 该 模型 是 一 个 整数 模型 。 相 比较 而 言 ， 整 数 模型 的 求解 比 非 整数 模型 要 复杂 。 
当 模型 中 的 部 分 决策 变量 必须 取 整 数值 ， 而 其 他 的 决策 变量 可 以 取 分 数值 或 者 小 数值 时 ， 模 型 也 称 为 混合 整数 模型 。 在 第 23 章 中 ， 将 介绍 混合 整 


昆 合 整数 模型 的 求解 。 
除了 上 面 介绍 的 分 类 以 外 ， 优 化 模型 还 有 更 为 详细 的 分 类 ， 如 表 19.2 所 示 。 这 些 模 型 可 以 看 成 是 线性 模型 


型 、 非 线性 模型 和 整数 模型 、 非 整数 模型 的 结合 。 
表 19.2 ”优化 模型 分 类 


决策 变量 都 是 
7 Coict) 连续 型 变量 


三 







目标 函数 和 约束 条 件 都 | ， 
是 线性 限 数 | 








整数 变量 
性 模型 (LP) ,局 
目标 函数 和 约束 条 件 部 


救 数 线性 模型 (ILP ) 
分 是 非 线 性 限 数 





上 E 线 性 模型 (NLP ) 





"Ej 八 -永久 米 
| "和 三 区 ;二 


数 非 线性 模型 (MINLP) 


过 人 米 全 上 E ty 
NO 2 = 之 
TE 久久 Sa 


线性 模型 (INLP ) 
4. 确 定性 模型 和 随机 模型 


决策 变量 的 取 值 一 旦 确定 下 来 ， 目 标 函 数 的 取 值 和 约束 条 件 是 否 满足 也 完全 可 以 确定 ， 则 该 模型 为 确定 性 模型 ;如 果 决 策 变量 的 取 值 确定 后 ， 目 标 函 数 的 取 值 或 者 约束 条 件 是 否 满足 仍然 不 
定 ， 则 该 模型 为 随机 模型 。 很 明显 ， 例 19.1 中 的 模型 是 一 个 确定 性 模型 
此 ， 该 公司 的 生产 计划 的 安排 适合 使 用 随机 模型 


是 否 ; 能 完全 确 
至 于 前 面 提 到 的 生产 运动 服饰 公司 的 例子 ， 由 于 需求 是 未 知 的 ， 所 以 对 于 给 定 的 生产 计划 ， 我 们 也 不 能 确定 
员 多 情况 下 ， 通 过 分 析 确定 性 模型 可 以 为 随机 模型 的 分 析 提供 一 定 的 参考 。 


是 否 能 够 满足 需求 ， 


19.4 优化 建 异步 又 


运筹 学 作为 一 门 用 来 解决 实际 问题 的 学 科 ， 在 处 理 干 差 万 别 的 实际 问题 时 ， 一 般 


人 和 全: 止 


会 涉及 以 下 6 个 步骤 : 确定 问题 、 准 备 数据 、 建 立 模型 、 模 型 求解 、 模 型 验证 与 调试 、 模 型 实施 与 监 
1. 确 定 问题 


在 实际 生活 中 ， 我 们 碰 到 的 商业 问题 往往 并 不 是 这 么 明确 和 具体 的 。 因 此 ， 研 究 商业 问题 的 第 一 步 是 确定 问题 
的 关系 、 分 析 决 策 可 能 产生 的 影响 以 及 制定 决策 的 时 间 周 期 要 求 ， 等 等 


包含 确定 合理 的 目标 、 探 讨 存 在 的 约束 、 所 需要 研究 的 领域 和 组 织 机 构 内 其 他 领域 之 间 
避 题 的 确定 是 非常 关键 的 一 步 ， 直 接 决定 了 整个 OR 研 究 的 根基 。 
2. 准 备 数据 


在 确定 问题 之 后 ， 我 们 要 根据 问题 的 需要 进行 数据 收集 。 例 如 ， 表 19.1 中 产品 甲 和 产品 乙 对 于 材料 A、B、 的 单位 产量 用 料 需求 、 单 位 产量 的 利润 和 各 种 资源 供给 量 等 数据 进行 了 收集 和 计算 。 
3. 建 立 模型 


在 这 一 步 中 ， 要 根据 对 问题 和 系统 的 理解 ， 厘 清 目标 消 数 、 约 束 条 件 和 决策 变量 


并 将 它们 用 数学 模型 表示 出 来 ， 比 如 ， 例 19.1 中 建立 的 数学 模型 
例 19.2: 某 汽车 公司 在 4S 店 仓库 容量 、 产 品种 类 和 预算 的 约束 下 ， 希 望 通过 优化 确定 所 有 4S 店 各 种 车 型 的 订购 量 ， 从 而 使 
示 4S 店 i 的 顾客 对 车 型 -的 需求 量 ，Si，j 表 示 4S 店 i 对 车 型 ) 的 供给 


现在 再 举 一 个 根据 现实 业务 要 求 建立 模型 的 示例 。 
\-=- 口 量 1 于 是 有 


得 束 9KWK 个 人 汶 


叶 整 个 公司 的 缺 货 量 


内 里 


达到 最 小 。i 表 示 4S 店 ，j 表 示 车 型 ,Kk 表示 库存 量 。Di, 表 


minimize 2 E[D; 一 Si 


st 也 bb. G3) 


Xijot Yl V (1) 
2 kX < Space; yi 


B24 Y, < Variety,Vi 


> EC ， < Budget. Vi 


> KX; Ciir < Total_ Budget 


ijk>0 


. eat he 1] 当 4S 店 i 中 
其 中 ,天 ;i; 为 决策 变量 ， 承 ; 志 ee 


车 型 7 的 订购 量 为 天 时 
0 当 4S 店 i 中 车 型 j 的 订购 量 不 为 时 
1] 当 4S 店 i 中 车 型 7 的 订购 量 大 于 0 时 
0 当 4S 店 i 中 车 型 jy 的 订购 
模型 中 使 用 的 参数 如 下 : 


Spacei 为 4S 店 i 的 仓库 容量 约束 。 

Variety; 为 4S 店 i 可 以 订购 的 产品 种 类 约束 。 
Budgeti 为 4S 店 i 的 订购 预算 约束 。 

“Gi, j,k 为 4S 店 i 中 车 型 j 的 订购 量 为 k 时 的 单位 订购 成 本 。 


:Total_Budget 表 示 整 个 公司 的 订购 预算 约束 。 


目 标 函 | | 数 是 上 用 2 ED, A, Dm Hl DS DS YD es D0 
4. 模 型 求解 


在 建立 了 数学 模型 之 后 ， 就 要 对 模型 进行 求解 ， 也 就 是 寻求 使 得 目标 函数 达到 最 优 的 决策 变量 的 取 值 。 对 模型 求解 的 算法 可 以 分 为 两 大 类 : 一 类 是 最 优化 算法 ， 另 一 类 是 启发 式 算 法 。 本 书 中 将 主要 结 
合 SAS/OR 软 件 介绍 两 类 广泛 使 用 的 最 优化 算法 : 求解 线性 规划 问题 的 单纯 形 法 ， 以 及 求解 混合 整数 规划 问题 的 分 支 定 界 法 和 割 平 面 法 。 


对 于 有 些 问题 ， 要 找 出 问题 的 最 优 解 ， 可 能 需要 花费 巨大 的 人 力 、 物 力 和 财力 ， 这 时 可 以 考虑 使 用 启发 式 算法 进行 求解 。 启 发 式 算 法 是 相对 于 最 优化 算法 提出 的 ， 是 一 个 基于 直观 或 经 验 构造 的 算法 ， 
在 可 接受 的 花费 下 给 出 待 解决 优化 问题 的 一 个 可 行 解 。 在 处 理 许多 实际 问题 时 ， 启 发 式 算 法 通常 可 以 在 合理 时 间 内 得 到 不 错 的 解 ， 但 是 该 可 行 解 与 最 优 解 的 偏离 程度 是 不 能 事先 预计 的 。 


5. 模 型 验证 与 调试 


开发 一 个 大 型 的 优化 模型 ， 和 开发 一 个 大 型 的 计算 机 应 用 程序 类 似 。 在 完成 计算 机 程序 的 最 初版 本 时 ， 几 乎 不 可 避免 地 会 出 现 多 种 错误 ， 需 要 经 过 多 轮 测试 和 不 断 修复 。 开 发 优化 模型 自然 也 是 如 此 ， 
最 初 的 模型 同样 不 可 避免 地 会 包含 一 些 缺 点 ， 比 如 说 ， 一 些 相关 的 因素 没有 被 考虑 进去 ， 或 者 ， 模 型 中 一 些 参数 的 估计 不 合适 等 。 在 建 模 过 程 中 ， 由 于 系统 的 复杂 性 特点 ， 使 得 了 解 系统 的 方方面面 具有 一 


有 彼 浅 


定 的 难度 ， 同 时 ， 数 据 收集 也 具有 一 定 难 度 ， 这 些 都 不 可 避免 地 导致 初期 的 优化 模型 存在 多 种 问题 。 因 此 ， 在 优化 模型 投入 使 用 之 前 ， 必 须 进 行 多 次 验证 和 调试 。 


EA 


很 难 具体 描述 如 何 进行 模型 的 验证 与 调试 ， 因 为 这 都 是 因 优化 问题 和 模型 而 异 的 ， 这 里 给 出 进行 模型 验证 与 调试 的 几 条 一 般 性 的 建议 : 


对 于 大 型 的 优化 项 目 ， 很 多 情况 下 ， 都 会 将 其 分 成 一 个 一 个 小 的 组 成 部 分 分 别 进行 处 理 ， 但 这 样 一 来 ， 在 开发 的 过 程 中 很 容易 犯 因 小 失 大 的 错误 。 故 在 进行 模型 的 验证 与 调试 的 时 候 ， 要 从 整体 着 


手 ， 将 各 个 部 分 联系 起 来 。 参 与 这 项 工作 的 人 员 最 好 未 曾 参与 模型 的 建立 ， 这 样 可 以 公平 客观 地 对 待 整个 问题 。 
. 在 进行 模型 验证 的 时 候 ， 应 重新 检验 优化 问题 的 定义 ， 并 与 开发 的 模型 进行 比较 。 
过 输入 不 同 的 参数 ， 检 验 模 型 的 结果 是 否 合理 。 例 如 ， 在 例 19.2 中 ， 模型 的 参数 Spacei 或 Vatietyi 的 取 值 ， 检 验 模型 的 结果 。 


` 采用 回顾 性 检验 方法 ， 选 取 一 段 历史 时 间作 为 验证 阶段 ， 利 用 这 段 时 间 之 前 的 数据 建立 模型 ， 根 据 建立 的 模型 模拟 这 段 时 间 的 数据 ， 并 生成 KPI 指 标 ， 然 后 与 实际 发 生 的 数据 和 KPI 指 标 进行 比较 


过 对 比 ， 可 以 对 模型 的 效果 有 初步 的 了 解 ， 并 且 可 以 揭示 模型 的 不 足 之 处 ， 便 于 修正 和 调试 。 


。 通 


6 模型 实施 与 监控 


在 模型 的 验证 与 调试 通过 之 后 ， 就 可 以 进行 模型 实施 了 ， 这 时 要 将 模型 与 实际 生产 环境 集成 起 来 。 在 模型 的 实施 过 程 中 ， 必 须 不 断 监测 模型 运行 的 结果 ， 检 查 是 否 能 够 满足 建立 模型 时 提出 的 目标 。 


19.5 SAS/OR 简 介 


如 前 所 述 ， 基 本 的 优化 问题 就 是 在 一 系列 的 约束 下 ， 最 优化 (最 大 化 或 者 最 小 化 ) 一 个 目标 函数 ， 如 : 
Maximize | Minimize f (x) 


st. ci (x) {<, =, >}b; (i=1, 2, .…, n) 


l<x<u (1 2 es n) 


在 建立 数学 模型 后 ， 对 数学 模型 进行 求解 就 是 寻找 合适 的 决策 变量 的 取 值 使 得 所 有 的 约束 条 件 都 能 满足 ， 并 且 目 标 函 数 取 得 最 优 值 ( 最 大 值 或 者 最 小 值 ) 。 对 此 ，SAS/OR 提 供 了 一 系列 求解 优化 模型 


的 过 程 步 。 
OPIILP 过 程 : 用 于 求解 线性 规划 模型 ， 其 中 目标 函数 是 线性 函数 ， 约 束 条 件 可 以 是 有 界 约 束 、 等 式 约束 或 不 等 式 约束 ， 但 是 必须 部 是 线性 形式 。 


* OPTMILP 过 程 : 用 于 求解 混合 整数 线性 规划 模型 ， 其 中 目标 函数 是 线性 函数 ， 约 束 条 件 可 以 是 有 界 约 束 、 等 式 约束 或 不 等 式 约 束 ， 但 是 必须 都 是 线性 形式 ， 并 且 部 分 或 者 全 部 决策 变量 受制 于 整数 约 


. OPTQP 过 程 : 用 于 求解 一 类 特殊 的 非 线性 规划 模型 ， 也 称 为 二 次 规划 模型 (Quadratic Programming) 。 在 该 种 非 线 性 规划 模型 中 ， 目 标 函 数 是 二 次 型 函数 ， 约 束 条 件 可 以 是 有 界 约束 、 等 式 约束 或 不 等 
式 约束 ， 但 是 必须 都 是 线性 形式 。 


在 调用 以 上 3 个 过 程 步 求解 优化 模型 前 ， 需 将 用 于 优化 模型 的 参数 保存 成 要 求 的 SAS 数 据 集 ， 然 后 调用 相应 的 过 程 步 进 行 求解 。 本 书 中 将 不 会 具体 介绍 这 3 个 过 程 步 的 使 用 方法 ， 有 兴趣 的 读者 可 以 参考 
SAS 帮 助 文 档 学 习 其 使 用 方法 。 


除了 上 面 3 个 过 程 步 ， 还 有 一 个 OPTMODEL 过 程 步 ， 作 为 一 种 代数 模型 语言 ，OPTMODEL 过 程 使 得 SAS/OR 用 户 在 运用 SAS 建 立 优化 模型 的 过 程 中 ， 可 以 根据 数学 模型 的 表达 形式 使 用 代数 语言 编写 程 
序 ， 极 大 地 提高 了 优化 模型 的 可 读 性 和 透明 性 。 运 用 OPTMODEL 过 程 可 以 调用 SAS/OR 软 件 的 LP、MILP、QP 和 NLP 求 解 器 ， 求 解 线性 规划 模型 、 混 合 整 数 线性 规划 模型 、 二 次 规划 模型 和 一 般 的 非 线 性 模 
型 。 本 书 将 对 其 使 用 方法 进行 重点 介绍 。 


19.6 一 个 简单 的 OPTMODEL 程 序 


在 例 19.1 中 ， 建立 了 工厂 生产 甲 、 乙 两 种 产品 的 优化 模型 ， 这 里 将 展示 如 何 用 OPTMODEL 过 程 将 该 优化 模型 表示 出 来 ， 并 进行 求解 。 
目标 函数 是 利润 函数 ， 优 化 的 目标 是 最 大 化 利润 函数 ， 即 
Maximize 4 (ptoduct1) +6 (product2) 
“ 产品 甲 和 产品 己 关 于 材料 A 的 总 耗材 不 能 超过 材料 A 的 总 供给 量 ， 因 此 
2 (product1) +3 (product2) <18 
“ 产品 甲 和 产品 乙 关 于 材料 B 的 总 耗材 不 能 超过 材料 B 的 总 供给 量 ， 因 此 
2 (productl) +1 (ptoduct2) <10 
“ 产品 甲 和 产品 乙 关 于 材料 C 的 总 耗材 不 能 超过 材料 C 的 总 供给 量 ， 因 此 
1 (product1) +4 (product2) <16 
. 产品 甲 和 产品 己 的 产量 product1 和 product2 都 必须 是 整数 。 


用 OPTMODEL 过 程 建立 模型 的 代码 如 下 : 





proc optmodel; 
/*declare variables*/ 
Var Productl1l >=0 integer, Product2>=0 integer; 
/*maximize objective funtion (profit)* 
maximize profit = 4*Product1l+6*Product2; 
/*subject to constraitns*/ 
Con materialA: 2*Product1l+3*Product2 <=18; 
Con materialB: 2*Product1l+1l*Product2 <=] 
Con materialC: 1*Productl+4*Product2 <=16; 
/*solve MILP*/ 
Solve with MILP; 
/*display solution*/ 
print Prooduetl Product2; 

quit; 
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这 段 代 码 几 乎 和 数学 模型 的 表达 方式 一 模 一 样 ， 非 常 简洁 易 读 。VAR 语 句 声明 了 决策 变量 ，MAXIMI1ZE 语 句 声明 了 目标 函数 ，CON 语 句 声明 了 3 种 材料 的 资源 约束 。 在 模型 建立 完毕 后 ， 运 用 SOLVE 语 
句 调 用 MILP 求 解 器 求解 该 优化 模型 ， 最 后 通过 PRINT 语 句 将 决策 变量 的 取 值 输出 。 


这 段 代 码 的 输出 如 图 19.1 和 图 19.2 所 示 。 


OPTMODEL 过 程 输出 的 第 一 张 报表 是 问题 的 总 结 ， 包 含 优化 问题 的 类 型 、 目 标 函 数 、 目 标 浮 数 的 类 型 、 决 策 变量 的 信息 以 及 约束 的 信息 。 第 二 张 报表 输 出 了 运行 OPTMODEL 过 程 的 系统 信息 。 第 三 张 
报表 是 模型 求解 过 程 的 总 结 ， 包 含 求解 使 用 的 求解 器 信息 、 算 法 、 优 化 状态 和 优化 后 的 目标 函数 取 值 、 迭 代 次 数 等 信息 。 最 后 一 张 是 PRINT 语 句 输出 的 模型 最 优 解 。 可 以 看 到 ， 产 品 甲 和 产品 乙 分 别 生产 3 个 
单位 能 使 利润 达到 最 大 。 


Objedmve ense aximlzation 
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图 19.1 OPTMODEL 过 程 输 出 内 容 1 
































hs 


不 过 ， 在 上 面 这 段 代码 中 ， 模 型 的 参数 和 模型 结构 是 混合 在 一 起 的 ， 如 果 某 些 模 型 参数 发 生变 化 ， 则 需要 到 代码 中 去 调整 模型 。 对 于 大 型 优化 模型 来 说 ， 这 种 操作 方法 非常 不 便 ， 也 不 利于 模型 的 实 





图 19.2 OPTMODEL 过 程 输出 内 容 2 


在 使 用 OPTMODEL 过 程 的 时 候 ， 可 以 将 数据 和 模型 结构 分 离 出 来 。 因 此 ， 上 段 代 码 可 以 修改 成 以 下 形式 : 


data work.product; 
length Name $10.; 
input Name $ profit; 
datalines; 

Product1 4 

Product2 6 


六 











run; 
data work.required; 
length Name $10.; 
input Name $ ABC; 
datalines; 

Productl 2 2 1 
Product2 3 1 4 

run; 

data work.material; 
length material $1.; 

input material $ available; 


























datalines; 
A18 
B 10 
C16 





run; 

proc optmodel; 
/*declare sets and data indexed by sets 
set<string> PRODUCT; 
set<string> MATERIAL; 
num profit{PRODUCT}; 
num required{PRODUCT,MATERIAL}; 
num available{MATERIAL}; 















































人 














/*declare variables*/ 

var Units{PRODUCT} >=0 integer; 

/*maximize objective function (profit)*/ 

Maximize totalprofit=sum{p in PRODUCT}profit[p]l*Units[lp]; 
/*subject to constraitns*/ 
Con availablity{m in MATERIAL}: 

sum{p in PRODUCT} required[p,m]*Units[p]<=availablel[m]; 
/*abstract algebaric model that captures the structure of 
the optimization problem has been defined without 
referring to a single data constant */ 
/*populate model by reading in the specific data instance*/ 
Read data work.product into PRODUCT=[name] profit; 
Read data work.material into MATERIAI=[material] available; 

Read data work.required into PRODUCT=[name] {m in MATERIAL} <required[name,m]=col (m)>; 
/*solve MILP*/ 

Solve with MILP; 

/*display solution*/ 

print Unitey 

quit; 
























































































































































上 述 代码 中 ， 首 先 将 模型 中 的 参数 分 别 保存 在 了 3 个 不 同 的 数据 集 work.product、work.required 和 work.material 中 。OPTMODEL 程 序 中 的 上 半 段 中 定义 了 模型 结构 ， 将 数据 和 模型 结构 完全 分 离 
了 ， 后 半 段 中 运用 READ DATA 语 句 将 数据 集中 的 参数 加 载 进 模型 ， 然 后 进行 求解 。 这 样 建立 的 模型 更 加 灵活 、 可 读 ， 运 行 上 述 代码 后 ， 输 出 结果 和 图 19.1 和 图 19.2 完 全 一 样 。 这 段 代 码 主要 展示 了 
OPTMODEL 过 程 可 以 将 数据 和 模型 完全 分 离 的 功能 ， 所 有 关于 OPTMODEL 过 程 的 语法 将 在 第 20 章 、21 章 和 22 章 中 相继 介绍 。 





19.7 ”本章 小 结 


这 一 章 是 本 书 优化 部 分 的 开篇 。 首 先 简要 介绍 了 运筹 学 的 发 展 历 史 、 内 容 分 支 和 应 用 领域 。 接 下 来 介绍 了 优化 模型 的 基本 概念 ， 如 目标 函数 、 约 束 条 件 和 决策 变量 ， 并 对 优化 模型 作出 不 同 的 分 类 。 然 
后 ,介绍 了 优化 建 模 从 确定 问题 、 准 备 数 据 到 模型 实施 与 监控 的 6 个 基本 步骤 。 在 介绍 这 些 基本 概念 之 后 ， 通 过 一 个 示例 简单 扼要 地 介绍 了 如 何 运用 SAS/OR 进 行 优化 建 模 和 求解 。 


第 20 章 ”线性 规划 


线性 规划 (Linear Programming) 是 运筹 学 中 经 典 且 又 相对 比较 成 熟 的 分 支 。1947 年 美国 数学 家 G.B.Dantzig 对 如 何 求解 线性 规划 问题 提出 了 单纯 形 法 (Simplex Method) ， 由 于 单纯 形 法 可 以 求解 
大 规模 线性 规划 问题 并 且 易 于 在 计算 机 上 实现 ， 因 此 它 的 出 现 极 大 地 促进 了 线性 规划 的 广泛 应 用 。 此 外 ， 经 过 多 年 的 研究 ， 贝 尔 实 验 室 的 N.K.Karmarkar 于 1984 年 对 线性 规划 问题 提出 了 全 新 的 内 点 迭代 求 
解 模式 。 该 算法 为 研究 更 大 型 的 线性 规划 问题 的 数值 解法 提供 了 有 效 的 途径 。 本 章 在 介绍 线性 规划 问题 基本 理论 的 基础 上 ， 将 结合 SASVOR 介 绍 如 何 运 用 单纯 形 法 、 对 偶 单纯 形 法 和 内 点 法 求解 线性 规划 问 


日 


大 人。 


20.1 ”数学 模型 


这 一 节 中 ， 将 介绍 线性 规划 问题 及 用 于 描述 线性 规划 问题 的 一 些 重要 术语 。 
20.1.1 “问题 的 提出 


例 20.1: 一 家 生产 车 的 制造 商 生 产 甲 、 乙 两 种 类 型 的 卡车 ， 每 辆 卡车 都 必须 经 过 喷漆 和 组 装 两 个 步骤 。 喷 漆 间 和 组 装 间 每 天 都 是 8 小 时 工作 制 ， 如 果 仅 为 甲 种 卡车 喷漆 ， 那 么 喷漆 间 每 天 可 以 完成 800 
辆 ;如 果 仅 为 乙 种 卡车 喷 潜 ， 那 么 喷漆 间 每 天 可 以 完成 600 辆 。 如 果 组 装 间 仅 组 装甲 种 卡车 ， 那 么 组 装 间 每 天 可 以 组 装 700 辆 ; 如 果 仅 组 装 乙 种 卡车 ， 每 天 可 以 组 装 800 辆 。 生 产 一 辆 甲 种 卡车 的 利润 为 400 
元 ， 人 生产 一 辆 乙 种 卡车 的 利润 为 500 元 。 应 如 何 安排 每 天 的 生产 ， 使 得 该 制造 商 的 利润 达到 最 大 ? 


在 第 19 章 中 ， 已 对 于 一 般 的 优化 问题 引入 了 决策 变量 、 约 束 条 件 和 目标 遂 数 等 术语 。 那 么 ， 现 在 来 看 看 这 个 问题 中 的 决策 变量 、 约 束 条 件 和 目标 函数 分 别 是 什么 。 在 线性 规划 模型 中 ， 决 策 变量 必须 代 
表决 策 者 作出 的 决策 。 这 里 的 决策 者 是 制造 商 ， 该 制造 商 必 须 决 定 每 天 生产 多 少 辆 甲 种 卡车 和 多 少 辆 乙 种 卡车 。 显 然 ， 这 里 的 决策 变量 就 应 该 是 每 天 生产 甲 种 卡车 和 乙 种 卡车 的 辆 数 ， 分 别 记 为 X1 和 X2。 


在 任何 线性 规划 问题 中 ， 决 策 者 都 必须 最 大 化 (如 收入 、 利 润 ) 或 者 最 小 化 (如 成 本 ) 由 决策 变量 组 成 的 目标 浮 数 。 在 这 个 问题 中 ， 每 生产 一 辆 甲 种 卡车 或 乙 种 卡车 的 利润 分 别 为 400 元 和 500 元 ， 这 里 
的 目标 函数 即 为 400xx1+500xx2。 该 制造 商 需要 选择 合适 的 x1 和 x2 使 得 400xx1+500xXx2 达 到 最 大 。 在 线性 规划 中 ， 可 以 使 用 z 表 示 目 标 函 数 ， 则 该 问题 的 优化 目标 和 目标 函数 为 : 


Maximize z=400 xX x1+500 xX X72 


这 里 Maximize 可 以 简写 成 max。 如 果 是 最 小 化 目标 浮 数 ， 则 应 写成 Minimize， 简 写 为 min。 目 标 遂 数 中 ， 决 策 变量 的 系数 称 为 目标 浮 数 系数 (objective function coefficient) ， 这 里 的 400 和 500 都 
是 目标 函数 系数 ， 代 表 了 每 生产 一 辆 甲 种 或 乙 种 卡车 对 利润 的 贡献 。 


这 里 是 最 大 化 目标 立 数 ， 如 果 对 每 天 生产 甲 种 或 乙 种 卡车 的 数量 没有 约束 的 话 ， 那 么 为 了 追求 利润 的 最 大 化 ， 该 制造 商 一 定 会 生产 尽 可 能 多 的 卡车 。 但 是 ， 由 于 每 天 喷漆 间 和 组 装 间 的 工作 时 间 有 限 ， 
每 天 的 生产 不 可 能 是 无 止境 的 。 这 里 的 约束 条 件 有 两 个 ， 一 是 每 天 使 用 喷漆 间 的 时 间 不 能 超过 8 小 时 ， 二 是 每 天 使 用 组 装 间 的 时 间 不 能 超过 8 小 时 。 接 下 来 的 问题 就 是 ， 如 何 运 用 决策 变量 x1 和 Xx2 来 表示 约束 
条 件 。 这 是 在 建立 线性 规划 模型 时 要 考虑 的 比较 复杂 的 一 个 步骤 ， 特 别 是 对 于 大 型 的 线性 规划 问题 而 言 。 对 于 约束 条 件 一 ， 我 们 注意 到 ， 每 辆 甲 种 卡车 的 喷漆 时 间 为 w=“ 小时， 每 辆 乙 种 卡车 的 喷漆 时 间 为 
mw“ 小 时 ， 则 每 天 喷漆 间 生产 甲 种 卡车 所 用 的 时 间 为 w= 小时， 每 天 喷漆 间 生 产 乙 种 卡车 所 用 的 时 间 为 * 小 时 。 因 此 ， 一 天 中 喷漆 间 使 用 时 间 的 约束 为 : 
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同样 道理 ， 一 天 中 组 装 间 使 用 时 间 的 约束 为 
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注意 ， 约 束 条 件 中 每 一 项 的 单位 必须 都 是 一 致 的 ， 不 等 号 左边 和 右边 的 单位 也 必须 是 一 致 的 ， 否 则 约束 条 件 就 失去 实际 意义 。 这 里 约束 条 件 的 左边 和 右边 都 是 表示 小 时 数 。 


在 约束 条 件 中 ， 不 等 号 右边 的 数 称 为 右 端 项 (right-hand side，rhs) ， 通 常 ， 约 束 条 件 的 rhs 代 表 了 资源 的 最 大 供给 量 ， 这 里 表示 工作 时 间 的 最 大 量 。 约 束 条 件 中 决策 变量 的 系数 称 为 约束 条 件 系数 。 


在 建立 线性 规划 模型 时 ， 一 个 自然 而 然 的 问题 是 ， 决 策 变量 是 否 只 可 以 取 非 负 值 ， 还 是 说 决策 变量 的 取 值 可 正 可 负 ?” 如 果 一 个 决策 变量 xi 只 可 以 取 非 负 值 ， 则 在 建立 线性 规划 模型 的 时 候 必 须 添加 符号 
约束 xi>0; 如 果 一 个 决策 变量 x 的 取 值 可 正 可 负 甚 至 可 以 是 0， 则 称 这 个 决策 变量 xi 是 自由 的 (unrestricted in sign，urs) 。 在 这 个 生产 卡车 的 问题 中 ， 显 然 X1>0，x2>0。 在 其 他 问题 中 ， 有 些 决 策 变量 是 
自由 的 。 例 如 ， 如 果 决 策 变 量 xi 代 表 某 公司 的 现金 结余 ， 如 果 该 公司 从 的 钱 比 实际 拥有 的 钱 多 ， 那 么 xi 的 取 值 就 是 负 值 。 在 这 种 情况 下 ，xi 就 是 自由 的 。 实 际 上 ， 符 号 约束 是 约束 条 件 中 的 一 种 。 

结合 决策 变量 、 目 标 函 数 、 约 束 条 件 及 符号 约束 考量 ， 针 对 该 卡车 生产 的 优化 模型 如 下 : 


Maximize z=400 入 x1+500 六 X72 


st. 一 一 Xi 十 一 为 近 8 《喷漆 间 工 时 约束 ) 
100 了 
2 ] 
/ 和 
一 一 Xj 十 一 一 Xx, 和 8 (组 装 间 工时 约束 ) 


xi>0 (符号 约束 ) 


x2>>0 《符号 约束 ) 


20.1.2 ”线性 规划 问题 
1. 线 性 规划 间 题 的 定义 

在 定义 线性 规划 问题 之 前 ， 首 先 给 出 线性 函数 和 线性 不 等 式 的 定义 。 

“ 线性 函数 : 如 果 一 个 关于 x1， X2，“ …， xn 的 函数 f (xl， X2，“”“， xn) 是 线性 函数 ， 那么 f (x1, X22，““'“， xn) 二 C1X1 十 C2X2 十 … 十 CnXn， 其 中 ci， C2，“ …， cn 为 常数 。 例如 ， f (x1, x2) =2x1+3x2 为 xX1 和 x2 的 线 
性 函数 ， 但 是 f (xj，x2) =2xix22 则 不 是 x1 和 xx 的 线性 函数 。 

“ 线性 不 等 式 : 对 于 任意 的 线性 函数 f (x1, X2，“” '， xn ) 和 任意 常数 b， 不 等 式 f (x1, X2， '， xn) 三 b 和 不 等 式 f (Xx1, X2， ， xn ) 之 b 称 为 线性 不 等 式 。 例如 ， 2x1+3x2 之 3 和 2x1+3x2 三 10 为 线性 不 等 
式 ， 而 2x1X 2 过 7 不 是 线性 不 等 式 。 


我 们 将 具有 以 下 特征 的 优化 问题 称 为 线性 规划 问题 (简称 为 LP 问题) : 


` 决策 变量 必须 满足 一 系列 约束 ， 并 且 每 个 约束 条 件 都 必须 是 线性 等 式 或 者 线性 不 等 式 。 
. 任意 决策 变量 必须 是 非 负 的 〈 如 和 过 0) 或 者 自由 的 。 


因为 例 20.1 中 的 目标 函数 是 决策 变量 x1 和 Xx2 的 线性 国 数 ， 所 以 所 有 的 工时 约束 都 是 线性 不 等 式 ， 并 且 x1 和 x2 的 取 值 为 非 负 值 ， 因 此 该 优化 问题 是 线性 规划 问题 。 该 生产 制造 问题 是 线性 规划 问题 中 最 典 
型 的 生产 计划 问题 。 

加 注意 ”在 线性 规划 问题 中 ， 不 允许 出 现 “<” 或 “>” 形 式 的 约束 。 

根据 线性 规划 问题 的 定义 ， 不 难 推导 出 线性 规划 问题 具有 如 下 隐藏 的 假设 条 件 。 


.比例 性 (Proportionality) : 每 个 决策 变量 对 目标 函数 的 贡献 都 是 随 着 决策 变量 取 值 的 增加 而 按 国定 比例 变化 的 ， 不 产生 规模 经 济 效应 。 在 约束 条 件 中 ， 每 个 决策 变量 对 于 约束 条 件 左 端 项 的 贡献 也 是 
随 着 决策 变量 取 值 的 增加 按 固定 比例 变化 的 。 


:可 加 性 (Additivity) : 在 目标 函数 和 约束 条 件 中 ， 决 策 变 量 之 间 是 相互 独立 的 ， 没 有 协同 项 或 交叉 项 ， 目 标 函 数 或 者 约束 条 件 仅仅 是 各 个 决策 变量 各 自 单 独 贡 献 的 总 和 。 例 如 ， 在 例 20.1 中 ， 不 管 同 
时 生产 多 少 辆 甲 种 卡车 和 乙 种 卡车 ， 它 们 对 目标 函数 的 贡献 始终 是 各 自贡 献 的 总 和 400Xx1+500Xx， 不 会 因为 可 以 共用 销售 或 市 场 渠道 而 获得 额外 利润 ， 也 不 会 因为 两 种 车 型 在 市 场 定位 上 的 重 缀 竞争 而 造 
成 总 利润 减少 。 同 样 ， 无 论 同时 生产 多 少 辆 甲 种 卡车 和 乙 种 卡车 ， 各 自 所 花费 的 喷漆 工时 和 组 装 工 时 也 不 会 改变 ， 不 会 因为 需要 同时 生产 两 个 不 同 车 型 而 要 调整 喷漆 或 组 装 车 间 的 人 员 或 设备 ， 从 而 花费 更 


多 的 时 间 。 


.可 分 割 性 〈Divisibility) : 决策 变量 的 取 值 可 以 是 分 数 或 小 数 ， 并 非 严 格 和 要求 为 整数 。 在 例 20.1 中 ， 可 分 割 性 的 假设 暗示 了 可 以 生产 0.5 辆 甲 种 卡车 或 者 1.3 辆 乙 种 卡车 。 但 在 生产 卡车 的 实际 过 程 中 ， 显 
然 是 不 可 以 生产 非 整数 辆 卡车 的 ， 因 此 可 分 割 性 这 个 假设 在 例 20.1 中 不 成 立 。 这 种 部 分 决策 变量 或 全 部 决策 变量 只 能 取 整 数 的 线性 规划 问题 称 为 混合 整数 线性 规划 问题 或 整数 线性 规划 问题 。 在 很 多 的 实际 
问题 中 ， 可 分 割 性 的 假设 条 件 通常 都 不 成 立 ， 但 是 通过 对 线性 规划 问题 的 最 优 解 取 整 ， 在 某 些 情况 下 可 以 得 到 对 应 混合 整数 线性 规划 问题 的 较 好 解 。 例 如 ， 某 生产 计划 LP 问 题 的 最 优 解 是 每 年 必须 生产 
15000.4 辆 轿车 ， 那 么 我 们 基本 可 以 认为 生产 15000 辆 轿车 或 者 生产 15001 辆 轿车 可 能 是 最 优 的 生产 方案 。 又 比如 ， 在 某 通 信 公 司 在 某 地 区 建设 发 射 塔 的 线性 规划 问题 中 ， 求 解 得 到 建立 发 射 塔 的 最 优 数目 为 1.4 
台 ， 这 时 如 果 进 行 取 整 ， 可 得 到 1 台 或 者 2 台 ， 但 这 对 效益 或 成 本 的 影响 将 非常 大 ， 这 时 必须 使 用 混合 整数 线性 规划 方法 对 这 类 问题 进行 求解 了 。 


` 确定 性 (Certainty) : 优化 模型 中 的 参数 (目标 函数 系数 、 约 束 条 件 系 数 和 右 端 项 ) 必须 都 是 已 知 常数 。 在 例 20.1 中 ， 如 果 不 能 确定 每 生产 一 辆 甲 种 卡车 的 利润 是 多 少 ， 那 么 确定 性 假设 条 件 就 不 成 


为 了 介绍 线性 规划 问题 解 的 概念 ， 先 来 介绍 一 下 凸 集 的 概念 。 对 于 集合 中 的 任意 两 点 而 言 ， 若 这 两 点 的 连 线 也 属于 这 个 集合 ， 则 称 该 集合 为 凸 集 (Convex Set) 。 如 图 20.1 所 示 ， 图 20.1a、b 是 凸 集 的 
两 个 例子 ， 图 20.1c、d 则 明显 不 是 凸 集 。 





a ) b) C) d) 


图 20.1 凸 集 和 非 凸 集 示例 


若 有 任意 的 x1 和 x2 属 于 某 个 凸 集 S5，0< 入 <1, 令 x= 和 X1+ (1- 入 ) x2， 称 x 为 x1 和 x2 的 是 组合。 对 于 任意 凸 集中 的 某 个 点 ， 如 果 该 点 不 能 表示 为 该 凸 集中 任何 两 个 不 同 点 的 凸 组 合 ， 则 该 点 为 凸 集 的 顶点 


(Extreme Point) 。 在 图 20.1a 中 ,圆周 上 的 任何 点 都 是 该 凸 集 的 项 点， 图 20.1b 中 点 A、B、C、D、F 都 是 凸 集 的 顶点 ，E 点 不 是 凸 集 的 顶点 ， 因 为 E 可 以 表示 成 C 点 和 D 点 的 凸 组 合 。 
3. 解 的 概念 


在 线性 规划 问题 中 ， 决 策 变量 的 任何 一 个 取信 都 被 称 为 一 个 解 ， 但 是 一 个 解 只 有 在 满足 所 有 约束 条 件 时 才 被 称 为 该 问题 的 可 行 解 ， 所 有 可 行 解构 成 的 集合 称 为 该 问题 的 可 行 域 ,使 目标 函数 值 达到 最 优 
的 可 行 解 称 为 该 问题 的 最 优 解 。 对 于 任意 的 解 ， 如 果 该 解 不 在 该 问题 的 可 行 域 中 ， 则 称 为 不 可 行 解 。 


例 20.1 中 LP 问 题 的 可 行 域 就 是 满足 工时 要 求 的 所 有 生产 计划 的 集合 。 大 部 分 线性 规划 问题 都 有 唯一 的 最 优 解 ， 有 一 些 线性 规划 问题 包含 无 穷 多 个 最 优 解 。 在 本 节 后 面 将 会 介绍 相应 的 情形 。 
可 以 证 明 ， 如 果 一 个 线性 规划 问题 的 可 行 域 存 在 并 且 是 有 界 的 ， 那 么 该 可 行 域 是 凸 集 ， 并 且 其 最 优 解 必 然 可 以 在 可 行 域 的 顶点 处 达到 。 这 个 结论 非常 重要 ， 因 为 这 个 结论 将 使 线性 规划 问题 最 优 解 的 搜 
索 范 围 从 一 个 无 限 的 集合 缩小 到 一 个 只 包含 顶点 的 有 限 的 集合 。 


20.1.3 ”图 解法 
对 于 仅 含 两 个 变量 的 线性 规划 问题 ， 可 以 通过 图 解 的 方法 求 得 其 最 优 解 。 下 面 的 例子 给 出 了 运用 图 解法 求解 线性 规划 问题 的 基本 步骤 。 
例 20.2: 求解 以 下 线性 规划 问题 : 
Maximize z=12x+19y 
s.t.x+3y<225 
xty<117 


3x+4y<420 


步骤 1: 在 直角 坐标 系 中 画 出 线性 规划 问题 的 可 行 域 。 
步骤 2: 作 目 标 函 数 的 等 值 线 。 本 例 中 ， 由 z=12x+19y 得 ， 一 一 对 于 不 同 的 z 值 ， 则 上 述 方程 给 出 了 斜率 同 为 … 的 一 族 平行 线 ， 这 无 数 条 平行 直线 构成 了 该 线性 规划 问题 的 等 值 线 族 。 


步骤 3: 确定 最 优 解 。 等 值 线 族 履 盖 于 可 行 域 上 ， 显 然 ， 可 行 域 上 与 最 大 等 值 线 相交 的 点 即 为 该 线性 规划 问题 的 最 优 解 。 所 以 最 优 解 (x*，y) 满足 
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解 得 (x*，y*) 为 (63，54) ， 目 标 函 数 的 最 优 值 为 1782。 


该 图 解法 如 图 20.2 所 示 ， 最 优 解 在 可 行 域 的 顶点 处 取 到 。 





图 20.2” 例 20.2 的 图 解法 


一 旦 找到 线性 规划 问题 的 最 优 解 ， 就 可 以 将 最 优 解 回 代 到 约束 条 件 中 ， 从 而 将 约束 条 件 分 为 紧 约束 (binding constraint 或 者 active constraint) 和 非 紧 约 束 (nonbinding constraint) 。 
" 最 优 解 代入 到 某 约束 条 件 中 后 ， 如 果 约 束 条 件 左 边 的 取 值 等 于 右边 项 ， 则 该 约束 条 件 称 为 紧 约 束 。 
. 最 优 解 代入 到 某 约束 条 件 中 ， 如 果 约 束 条 件 左 边 的 取 值 和 右边 项 不 相等 ， 则 该 约束 条 件 称 为 非 紧 约 束 。 
在 例 20.2 中 ，x*+y*=117， 故 约束 条 件 x+y=117 为 紧 约束 ， 而 3x*+4y*<420， 所 以 约束 条 件 3x+4y<420 为 非 紧 约束 。 
运用 图 解法 求解 例 20.2 的 过 程 直观 地 表明 ， 对 于 仅 含 有 两 个 决策 变量 的 线性 规划 问题 而 言 ， 其 最 优 解 存 在 4 种 可 能 ， 且 仅 存 在 这 4 种 可 能 : 
` 有 唯一 最 优 解 。 
" 有 无 穷 多 个 最 优 解 。 
. 有 可 行 解 而 无 最 优 解 ， 此 时 线性 规划 问题 也 称 为 Unbounded LP。 
. 无 可 行 解 ， 此 时 该 线性 规划 问题 也 称 为 Infeasible LP。 
例 20.2 对 应 了 第 一 种 情形 ， 即 有 唯一 的 最 优 解 的 情形 。 图 20.3 依 次 给 出 了 另外 3 种 情形 ， 其 中 的 阴影 部 分 表示 可 行 域 。 


来 看 看 图 20.3 中 的 情形 ， 在 有 无 穷 多 个 最 优 解 的 示例 中 ， 约 束 条 件 x+ 3y<225 的 斜率 和 等 值 线 族 的 斜率 一 样 ， 当 x+3y=225 时 ， 取 得 最 优 解 ， 并 且 目 标 函 数 的 最 优 值 为 225， 但 是 此 时 ，x 和 y 的 取 值 有 无 
数 种 可 能 组 合 。 在 有 可 行 解 而 无 最 优 解 的 示例 中 ， 作 出 了 可 行 域 ， 但 是 该 可 行 域 是 上 无 界 的 ，y 可 以 取 任 意 大 的 值 ， 因 此 目标 函数 也 不 存在 最 大 值 ， 因 此 不 存在 最 优 解 。 在 无 可 行 解 的 示例 中 ， 由 于 约束 条 件 
3x+4y>420 和 其 余 约束 条 件 相 冲 突 ， 造 成 了 可 行 域 为 空 集 合 ， 故 不 存在 可 行 解 。 


Maximize z=x+3y Maximize z=12x+19y 
yb NS X 达 30 
人 Xx 宇 0, y 宇 0 
xt+y 夺 117 3xt+4y 夺 420 
X 宇 0, y 三 0 





有 无 穷 多 个 最 优 解 有 可 行 解 而 无 最 优 解 


Maximize z=12x+19y 
Sh tyS229 
xtylli 
3X+47 三 420 
X 宇 0, y 三 0 





无 可 行 解 


图 20.3 ”最 优 解 其 余 3 种 情形 


可 以 证 明 ， 对 于 所 有 的 线性 规划 问题 ， 其 最 优 解 也 仅 人 存在 这 4 种 可 能 。 


20.2 ”单纯 形 ; 


在 实际 问题 中 ，LP 问 题 通常 有 多 于 两 个 的 决策 变量 ， 因 此 需要 寻找 一 个 方法 来 求解 售 有 两 个 以 上 决策 变量 的 LP 问 题 ， 单 纯 形 法 就 是 这 样 一 个 基本 而 且 有 效 的 求解 方法 。 在 解决 实际 的 商业 问题 时 ， 单 纯 
形 法 被 用 于 求解 包含 成 干 上 万 个 约束 条 件 和 决策 变量 的 LP 问题 。 该 方法 最 重要 的 一 个 原理 就 是 前 面 所 说 的 ， 如 果 一 个 线性 规划 问题 的 可 行 域 存在 并 县 是 有 界 的 ， 那 么 该 可 行 域 是 凸 集 ， 并 且 其 最 优 解 可 以 在 
可 行 域 的 顶点 处 达到 。 


本 节 中 将 介绍 如 何 运用 单纯 形 法 求解 LP 问题 的 最 优 解 。 
20.2.1 线性 规划 问题 的 标准 型 


前 面 介 绍 的 线性 规划 模型 中 ， 其 不 等 式 可 以 是 “大 于 等 于 ”， 也 可 以 是 “小 于 等 于 ”。 为 了 便于 对 单纯 形 法 进行 讨论 ， 下 面 引 入 线性 规划 模型 的 标准 型 (standard Form) 。 单 纯 形 法 是 基于 线性 规划 
标准 型 的 一 种 寻找 最 优 解 的 算法 。 


假设 一 个 线性 规划 问题 有 n 个 决策 变量 x1，x2，.…，xn， 则 其 标准 型 为 : 
minimize 2 一 C1X1 十 C2X2 十 … 十 CnXn 
S.t.a11X1 十 a12X2 十 和 “十 a1n n=b1 


a91X1+222X2 十 "…* 二 apn Xn 一 b> 


apm1x1 十 am2ox2 十 … 十 ab 

x>0 (i=1, 2,…, n) 

其 中 ci (i=1，2，…，n) 为 目标 函数 系数 ，ai (i=1，2，.…，m, j=1，2，…，n) 为 约束 条 件 系数 ，bj 0j=1，2，…，m) 为 右 端 项 。 
若 记 “那么 线性 规划 的 标准 型 为 : 

minimize z=cTx 


s.t. Ax=b 


其 中 ，A 称 为 约束 系数 和 矩 咱 ，c 称 为 目标 系数 向 量 ，b 称 为 约束 右 端 项 向 量 ，<c 为 向 量 c 的 转 置 。 
本 书 中 介绍 的 LP 问 题 的 标准 型 具有 以 下 3 个 特点 : 

目标 函数 求 极 小 。 

.约束 条 件 为 等 式 。 

. 决策 变量 及 约束 右 端 项 为 非 负 。 
在 其 他 书 中 ， 也 有 以 目标 函数 求 极 大 的 形式 来 定义 LP 的 标准 型 的 ， 不 过 ， 这 两 种 定义 本 质 上 没有 区 别 。 
怎么 将 一 般 的 线性 规划 问题 化 为 标准 型 呢 ? 以 下 为 进行 转化 的 几 种 途径 : 

. 对 于 目标 函数 求 极 大 的 情况 (maximizecIx) ， 可 以 将 目标 函数 改写 成 (minimize-cIx) 。 

. 对 于 “小 于 等 于 ”的 不 等 式 约束 ， 如 ai1X1++42x2+… 十 aioxp 三 bi;， 应 引入 松弛 变量 (slack vatiable) s; 汪 0， 将 其 化 为 等 式 
ai1X1+2i2X2+ "+ainXn tsi= bi 

显然 ， 新 的 约束 条 件 

ai1X1 十 42X2 十 "… 十 ainXn 十 Sibi 

0 

等 同 于 原始 的 不 等 式 约束 

ai1X1 十 42X2 十 "… 十 ainXn < bi 

` 同 理 ， 对 于 “大 于 等 于 ”的 不 等 式 约束 ， 如 ai1X1+ai2X2+…+ainXn 之 bi， 应 引入 剩余 变量 (sutplus variable) si>0， 将 其 化 为 等 式 
ai1X1 十 42X2 十 … 十 ainXn-Si 一 bi 

对 于 右 端 项 为 负 值 的 等 式 或 不 等 式 约 束 ， 在 等 式 或 不 等 式 约束 的 两 边 同 时 乘 以 -1。 

" 对 于 负 变 量 x5j 和 0， 可 令 一 个 新 的 变量 xj=- 习 ， 再 回 代 入 模型 中 。 

` 对 于 自由 变量 xj， 可 令 其 等 于 两 个 非 负 变 量 之 差 ，x j>0，xj>0，x=x ixj， 再 回 代入 模型 中 。 


以 上 几 种 操作 途径 的 示例 如 图 20.4 所 示 。 
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图 20.4 一般 LP 问题 转化 成 标准 型 方法 示例 
为 了 便于 对 单纯 形 算法 进行 讨论 ， 还 需 介 绍 几 个 解 的 概念 。 


考虑 线性 规划 问题 的 标准 型 ，A 为 mxn 的 系数 约束 矩阵 ， 假 设 矩 阵 A 的 前 m 列 线性 无 关 ， 则 A 可 以 分 块 表示 为 A= (BN) ，B 为 前 m 列 形成 的 和 矩阵，N 为 后 n-m 列 形成 的 矩阵 。 和 矩阵 B 称 为 基 窍 阵 。 相 应 
x 也 可 分 块 记 为 "由 于 有 约束 条 件 Ax=b， 则 


如 


xp=B-Ib-B-INzxN 


令 XN=0， 则 xp=B-1b， 且 有 


. 基 变 量 (basic vatiables) 和 非 基 变量 (non basic vatiables) : 与 基 适 阵 B 对 应 的 变量 称 为 基 交 量 ， 其 余 的 变量 称 为 非 基 交 量 。 


. 基 解 (basic solution) : “是 对 应 于 基 短 阵 B 的 一 个 基 解 。 
. 最 优 基 : 如 果 基 解 "(, 是 最 优 解 ， 那 么 B 称 为 最 优 基 。 
` 基 可 行 解 (basic feasible solution) : 由 于 基 解 是 由 约束 条 件 Ax=b 推 出 的 ， 没 有 考虑 非 负 约 来 ， 因 此 基 解 也 不 一 定 是 可 行 解 。 满 足 非 负 约 束 条 件 的 基 解 ， 称 为 基 可 行 解 。 
可 以 证 明 ， 基 可 行 解 和 可 行 域 的 顶点 是 一 一 对 应 的 。 
20.2.2 ”单纯 形 法 的 导出 和 运用 


前 面 介绍 过 如 果 一 个 线性 规划 问题 存在 最 优 解 ， 则 其 最 优 解 必 然 可 在 可 行 域 的 项 点 处 达到 ， 也 就 是 必然 在 基 可 行 解 处 达到 。 单 纯 形 法 是 一 种 迭代 算法 ， 其 基本 原理 就 是 从 线性 规划 问题 的 一 个 基 可 行 解 


出 发 ， 通 过 不 断 变化 基 变 量 ， 寻 找到 使 得 目标 函 数 取得 最 优 解 的 基 可 行 解 ， 也 可 以 理解 为 从 单纯 形 法 的 一 个 顶点 走向 另 一 个 顶点 ， 直 到 在 某 个 顶点 上 目标 函数 取得 最 优 值 为 止 。 
1. 单 纯 形 法 的 导出 


考虑 线性 规划 标准 型 LP (注意 ， 为 了 方便 表示 ， 这 里 将 所 有 的 松弛 变量 和 剩余 变量 si 都 用 某 个 x 来 表示 ) : 
minimize Z=c1x1+ CX2+ "二 Cn Xn 
S.t.a11X1 十 a12X2 十 十 a1n n—b1 


a21X1 十 a22X2 十 … 十 apnXn 二 by2 


am1X1 十 am2X2 十 "… 十 amnXn 二 bm 
x >0 (i=1，2，.…，D) 


假设 约束 和 矩阵 A 的 秩 为 n，A=[a 1) ,a (2 ,amla0D=(aiai an)Tb=(bl b2, ..., bm) 1, x 0) = (x (0) 1, x (0) >,..., x (0) 0 ，..，0) [是 LP 问题 的 一 个 基 可 行 
解 。 那 么 可 以 假设 和 矩阵 A 的 前 m 列 线性 无 关 ， 则 必 人 存在 一 组 不 全 为 0 的 数 ai， i=1，...，m 使 得 


ml 
7)— la) rsa Pe 
Aa’ 二 by a ， 717 
i=1 
由 于 x (0) 是 基 可 行 解 ， 且 Ax 0) =b， 可 知 *…“ 将 等 式 “ 和 ”两 边 同 乘 以 和 并 与 等 式 *“ 相 加 ， 可 以 推导 出 
mi 
2, OAa)a ta =b, j=mt+l, *…, n 
i=]1 - 
由 此 可 知 ， 方 程 Ax=b 具 有 以 下 形式 的 解 : 


A Pr 


We Ma, 


0 


那么 ， 要 使 得 x (1) 成 为 LP 问题 不 同 于 x (0) 的 新 的 可 行 解 ， 则 必须 有 x (0) j-Aai>0， 且 入 >0; 进一步 ， 要 使 得 x (1) 成 为 LP 问题 的 新 的 基 可 行 解 ， 则 必须 至 少 有 一 个 x (0) i-Xai=0 (1<i<m) 且 和 >0， 
所 以 令 和 的 取 值 为 : 





x(0) | 
/= min a;>0) 
1£ism Ai | | 


该 式 也 称 为 出 基准 则 。 由 此 可 见 ， 出 基准 则 保持 了 解 的 基 可 行 性 。 这 样 ，x 〈1) 是 一 个 新 的 基 可 行 解 ， 并 且 前 m 个 分 量 中 会 有 一 个 分 量 为 0 (假设 是 第 r 个 分 量 ) ，x (1) 可 以 表示 为 : 


0 


将 x〈1) 代入 LP 问题 的 目标 函数 ， 有 


六 nmi 
2 > cx "ha;)+eA= ,Cx 全 > A 
i=1 


i=] i=] 


如 果 基 可 行 解 x “1) 优 于 x 0) ， 则 必须 有 * “也 就 是 令 …3 ciaj， 为 了 使 目标 函数 的 下 降 达 到 最 大 ， 则 应 选择 jo 使 其 满足 .各 ,5 “. 吕 ,%1*0 称 为 进 基准 则 。 由 此 可 见 ， 进 基准 则 是 确定 迭代 
的 方向 ,可 使 迁 代 能 够 尽快 地 找到 最 优 解 。 


对 于 m+1<j<n， 如 果 所 有 的 dG>0， 则 说 明 LP 问 题 的 目标 水 数值 已 经 无 法 改进 ， 即 最 优 解 已 经 达到 ， 通 常 称 c 称 为 判别 系数 或 者 价值 系数 (Reduced Cost) 。 
根据 进 基准 则 和 出 基准 则 ， 可 以 判断 : 


" 当 所 有 的 c>0，m+1<j<n， 则 LP 间 题 具有 唯一 的 最 优 解 。 
一 般 来 说 ， 若 存在 c=0，m+1<j<n， 则 LP 问题 可 能 具有 无 穷 多 个 最 优 解 ， 但 是 ， 并 不 能 表示 LP 问题 一 定 有 无 穷 多 个 最 优 解 。 


. 对 于 选 定 的 进 基 列 j0， 若 所 有 的 ai0<0， 则 LP 问题 有 可 行 解 但 无 最 优 解 。 当 确定 进 基 列 j0 之 后 ， 由 于 对 于 所 有 的 1<i<m， 都 有 ai0<0， 那 么 当 X 取 任意 大 于 0 的 值 时 ，x (1) 的 各 个 分 量 x (0) ;hai0 始 终 保 


持 大 于 等 于 0 (1<i<m) ， 所 以 x (1) 是 IP 问 题 的 可 行 解 。 又 由 .他 , 人 5 可知 ， 目 标 函 数 ” 癌 ”3 的 取 值 在 趋向 于 正 无 穷 时 趋向 于 负 无 穷 ， 故 不 存在 最 优 解 。 


2. 单 纯 形 法 的 一 般 步 又 
基于 以 上 原理 ， 下 面 介绍 运用 单纯 形 法 求解 线性 规划 问题 的 一 般 步骤 : 


1) 将 线性 规划 问题 转化 成 标准 型 。 


2) 计算 标准 型 的 初始 基 可 行 解 。 单 纯 形 表 (Simplex Tableaux) 是 单纯 形 法 的 一 种 常用 的 表示 形式 。 对 增 广 矩阵 (Alb) 做 初等 行 变 换 : 


] 人 0 A m+l Re dln pb 
(A : : : 
0 ] Um+1 人 b 


因此 ，x (0) = (b1，b2，…，bm，0，.…，0) ! 就 是 该 线性 规划 问题 的 一 个 初始 的 基 可 行 解 ， 列 出 得 到 初始 单纯 形 表 之 前 的 一 个 中 间 表 格 ， 如 表 20.1 所 示 。 


表 20.1 初始 单纯 形 表 (中 间 表 ) 








基 变 量 rhs 
飞 ] CIm+l bl 
久 ， Crm+l ee he b, 
Tm dmm+!] ab % | m 
rc 0 


现在 ， 继 续 对 该 表 的 矩阵 进行 初等 行 变 换 ， 将 基 变 量 x1，…，xm 下 方 对 应 的 c1，…，cm 转 换 成 0， 则 得 到 LP 问 题 的 初始 单纯 形 表 ， 如 表 20.2 所 示 。 


表 20.2 ”初始 单纯 形 表 








基 变 量 rhs 
X] woes 上 nes im 1 we se" b, 
万 ) woes sos Ch wos ses b, 
mm “oe | dade ( Ti 十] b m 
Ld 一 之 
这 里 ， 最 后 一 行 系数 c 即 为 判别 系数 。 在 进 初 等 行 变换 的 过 程 中 ， 表 格 中 的 右 下 角 的 数字 也 将 由 0 变 成 :*“ 即 -z。 


若 记 B 为 基 矩 阵 ，N 为 非 基 矩 阵 ，cB 为 基 变量 对 应 的 目标 系数 向 量 ，a 人 为 非 基 矩 阵 N 中 的 列 ，jE N， 对 短 阵 “进行 初等 行 变换 ， 可 以 得 到 .当即 非 基 变量 的 判别 系数 c 的 计算 可 以 进一步 表示 为 
30 表 20.1 中 ，B 为 单位 矩阵 ,a 由 = (a1j, a2j, …，amj)  ，cB= (C1， C2，… Cm) 1，， 所 以 7 
3) 检查 非 基 变量 的 判别 系数 cj， 对 于 目标 函数 极 小 化 的 情况 下 ， 若 所 有 的 cm+1，…，cr 都 大 于 等 于 0， 由 前 面 单纯 形 法 的 导出 原理 可 知 ， 最 优 解 已 经 求 得 ， 计 算 可 以 终止 ( 同 理 ， 对 于 目标 函数 极 大 化 


的 情况 下 ， 若 所 有 cm+1，…，<cn 都 小 于 等 于 0， 则 最 优 解 已 经 求 得 ， 计 算 可 以 终止 ) ， 最 优 解 为 (b1，…，bm，0，.…，0) 【。 和 否则， 继续 迭代 。 


4) 如 果 从 步骤 3 的 判断 中 ， 得 知 仍 需 继续 迭代 ， 说 明 当 前 的 基 可 行 解 不 是 最 优 解 。 因 此 需要 根据 进 基 准则 从 当前 的 非 基 变量 中 选取 某 一 个 变量 作为 进 基 变量 ， 同 时 根据 出 基准 则 从 当前 的 基 变量 中 选取 
某 一 个 变量 作为 出 基 变 量 。 选 取 jo0， 使 得 守 . 购 . 5 假设 这 里 jo=k， 则 xl 为 进 基 变量 。 若 所 有 的 a1k，…，amlk 都 小 于 等 于 0， 则 说 明 该 线性 规划 问题 有 可 行 解 但 无 最 优 解 ; 否则 ， 选 取 i0， 使 得 守 ” 一 假 


设 这 里 io=r， 则 xr 为 出 基 变 量 。 如 表 20.3 所 示 。 


表 20.3 ”单纯 形 表 一 一 进 基 变量 和 出 基 变 量 示例 





基 变 量 rhs 
入 ] nes sss dm+l ss "es b) 
光 7 b, 
出 基 变 量 
Xm nes ses nm +] nes "ee 0 





5) 依据 进 基 变 量 和 出 基 变 量 的 位 置 ， 对 单纯 形 表 进 行 初 等 行 变换 ， 将 基 变量 下 方 对 应 的 判别 系数 转换 成 0， 求 得 新 一 轮 基 可 行 解 对 应 的 单纯 形 表 。 转 至 步骤 3。 
信 注 意 在 运用 单纯 形 法 求解 线性 规划 问题 时 ， 右 端 项 (-z 除 外 ) 必须 是 非 负数 ; 如 果 右 端 项 出 现 负 数 ， 则 表明 此 时 的 解 不 是 基 可 行 解 。 


在 单纯 形 法 的 计算 步骤 4 中 ， 我 们 已 经 知道 什么 时 候 LP 问 题 具 有 无 界 解 了 。 若 通过 上 面 的 迭代 ， 得 到 的 单纯 形 表 终 表 中 ， 每 个 非 基 变量 的 判别 系数 都 是 非 0 的 ， 则 LP 问题 具有 唯一 的 最 优 解 。 但 是 ， 反 
之 ， 即 使 单纯 形 表 终 表 中 ， 某 个 非 基 变量 的 判别 系数 为 0%， 也 不 能 表示 LP 问题 一 定 有 无 穷 多 个 最 优 解 。 


在 单纯 形 法 的 迭代 过 程 中 ， 确 定 出 基 变量 和 进 基 变量 时 ， 可 能 出 现 两 个 相同 的 最 小 判别 系数 或 者 两 个 相同 的 最 小 比值 。 在 这 种 情况 下 ， 通 常 运用 Bland 法 则 : 
. 选取 下 标 最 小 的 j0， 使 得 .35150 以 xio 作 为 进 基 变量 。 


. 选取 下 标 最 小 的 ij， 使 得 人 “以 xi0 作 为 出 基 变 量 。 


20.2.3 ”两 阶段 单纯 形 法 
在 运用 单纯 形 法 求解 LP 问题 时 ， 将 LP 问题 转换 成 标准 型 后 ， 就 需要 寻找 初始 基 可 行 解 了 。 
不 失 一 般 性 ， 考 虑 LP 问题 的 标准 型 : 
min z=cl1x 
s.t.Ax=b 
x>>0 
其 中 ，A 为 mxn 的 矩阵， 假设 A 的 秩 为 n，c 


如 果 原 LP 问题 的 所 有 约束 都 是 “小 于 等 于 ”的 不 等 式 约束 ， 且 右 端 项 都 是 非 负 数 ， 则 进行 标准 型 转化 ， 添 加 的 松弛 变量 后 ， (0，.…，0，b1，.…，bm) “就 是 标准 型 的 初始 基 可 行 解 。 


如 果 原 LP 问题 的 约束 不 都 是 “小 于 等 于 ”的 不 等 式 约束 ， 或 者 右 端 项 不 都 是 非 负 数 ， 则 需 像 步骤 2 中 介绍 的 方法 一 样 ， 对 标准 型 的 增 广 矩阵 (Alb) 使 用 初等 行 变换 ， 从 而 计算 初始 基 可 行 基 。 我 们 知 
道 ， 进 行 初等 变换 往往 要 花费 相当 大 的 计算 量 。 为 了 方便 地 得 到 一 个 线性 规划 问题 的 初始 基 可 行 解 ， 通 常 可 采用 人 工 变 量 法 ， 有 两 条 实现 途径 : 一 种 是 大 M 法 (The Big M Method) ， 一 种 是 两 阶段 单纯 
形 法 (Two-Phase Simplex Method) 。 


使 用 大 M 法 进行 计算 机 编程 时 ， 有 时 会 引起 舍 入 偏差 或 一 些 其 他 计算 困难 。 因 此 ， 商 业 软件 大 多 使 用 两 阶段 单纯 形 法 ，SAS/OR 就 是 使 用 的 这 种 方法 。 故 而 这 里 也 只 介绍 两 阶段 法 的 基本 原理 ， 有 兴趣 
的 读者 可 以 自行 查阅 大 M 法 的 相关 内 容 。 


两 阶段 单纯 形 法 主要 针对 不 能 从 标准 型 中 找到 明显 的 初始 基 可 行 解 的 情况 ， 它 可 通过 引入 人 工 变量 := 的 方法 ， 将 LP 问 题 分 成 两 个 阶段 进行 求解 。 
: Phase 1: 求 出 原 LP 问 题 的 一 个 初始 基 可 行 解 。 
: Phase 2: 运用 单纯 形 法 从 初始 基 可 行 解 出 发 ， 求 得 原 LP 问 题 的 最 优 解 。 


在 Phase 1 中 ， 考 虑 如 下 问题 : 


mi 


min w= 人 x 
j=1 


St Ax+L,X =b 


Tm 
显然 ， (0，...，0，b1，...，bm) 是 该 问题 的 一 组 基 可 行 解 。 由 于 w 下 有 界 ， 因 此 一 定 存在 最 优 解 。 运 用 单纯 形 法 寻找 该 问题 的 最 优 解 ， 记 最 优 解 为 "3 
.车 w*=0， 即 和 50. 则 四 是 原 LP 问 题 的 一 个 初始 基 可 行 解 。 进 入 Phase 2， 运 用 单纯 形 法 对 原 LP 问 题 进行 求解 。 
“ 若 w*>0， 则 表明 原 LP 问 题 所 引入 的 人 工 变 量 中 有 非 0 值 ， 考 虑 到 “#3, 可 知 原 LP 问题 没有 可 行 解 。 


在 SAS/OR 中 ， 不 管 是 单纯 形 法 还 是 接 下 来 将 介绍 的 对 偶 单纯 形 法 ， 都 是 运用 两 阶段 法 的 思想 进行 求解 的 。 使 用 单纯 形 法 对 LP 问题 求解 的 语法 如 下 : 


proc optmodel; 
/*declare variables*/ 
/*declare constraints*/ 
/*declare objectives*/ 
solve with lp/ solver=ps; 
duits 











例 20.3: 求解 下 列 线性 规划 问题 。 


min 2 二 4X1 十 X2 
S.t.3X1 十 X2 二 3 
4x1+3xo 之 0 


xi 二 2xo 委 4 


引入 剩余 变量 s1 和 松弛 变量 s2， 将 原 问 题 化 为 标准 型 ， 如 下 : 
min z=4x1+x;» 

S.t.3x1 二 X2 二 3 

4x1+3x2-s1=0 


X1 十 2X2 十 S2? 二 4 


s1 宇 0， S2> 之 0 


来 看 标准 型 的 约束 系数 矩阵 人 其 中 已 经 含有 一 个 自然 基底 (0，0，1) i， 因此 只 需 引 入 两 个 人 工 变 量 x3 和 x4， 就 可 以 形成 一 个 初始 可 行 基 |3 ( 注 : 一 个 自然 基底 就 是 一 个 单位 向 量 ) 。 
Phase 1: 引入 人 工 变 量 x3 和 x4， 通 过 求解 线性 规划 问题 
min w=x3+x4 
S.t.3x1 十 X2 十 X3 二 3 
4x1+3x2-s1+x4=6 
x1+2x2 十 $2=4 
Te 二 生生 人 
寻找 原 问题 的 一 个 初始 可 行 解 。 


下 面 编写 SAS 代 码 对 Phase 1 的 问题 进行 求解 。 代 码 如 下 : 


proc optmodel; 
/*declare variables*/ 
var xl1>=0, x2>=0, x3>=0,x4>=0,s1>=0,s2>=0; 
/*declare constraints*/ 
con conl: 3*xl+x2+x3=3;) 
Con Con2:4*xl+3*x2-Ssl+x4=6; 
Con con3: xl+2*x2+Ss2=4; 
/*declare objective*/ 
min w=x3+x4; 
































solve with lp/solver=ps; 
print xl x2 x3 x4 sl s2; 
print xl.re x2.70 X37 Xx4,. re slre 2.2c) 








在 上 述 代码 中 ， 首 先 用 VAR 语 名 声明 了 6 个 变量 ， 其 次 用 CON 语 句 声 明了 3 个 约束 条 件 ， 分 别 命名 为 con1、con2 和 con3， 然 后 声明 了 目标 国 数 w， 并 使 用 选项 SOLVER=PSs 调 用 了 单纯 形 法 对 该 问题 进 
行 求解 ， 最 后 使 用 PRINT 语 句 输出 了 最 优 解 ， 后 缀 .RC 表示 REDUCED COST ( 即 判别 系数 ) 。 输 出 结果 如 图 20.5 所 示 。 
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Primal Infeasibility 
Dual Infeasibility | 


Round Infeasibility 0 





























x1.RC x2.RC | x3.RC x4.RC | s1.RC  s2.RC 
0 U ] 1 U 1 


图 20.5” 例 20.3Phase 1 部 分 的 输出 


输出 结果 中 Solution Status 显示 为 Optimal， 说 明 该 问题 已 经 达到 最 优 ， 最 优 解 中 人 工 变量 x3 和 x4 的 取 值 都 为 0， 并 且 目 标 最 优 值 为 0， 说 明 原 LP 问 题 存 在 可 行 解 ，x1=0.6，x2=1.2，s1=0 和 s2=1 就 是 
原 问题 的 一 个 初始 基 可 行 解 。 基 变量 x1 和 x2 的 REDUCED COST 为 0， 非 基 变 量 x3、x4、s1 和 s2 的 REDUCED COST 都 大 于 等 于 0， 和 前 面 在 单纯 形 法 中 的 分 析 结 果 一 样 。 


继续 对 原 LP 问题 进行 求解 ， 代 码 如 下 : 





proc optmodel; 

/*declare variables*/ 

var xl1>=0, x2>=0, x3>=0,x4>=0,s1>=0,s2>=0;} 

/*declare constraints*/ 

con conl: 3*xl+x2+x3=3} 

Con Con2:4*x1+3*x2-sl+x4=6; 

Con con3: xl+2*x2+s2=4; 

/*declare objective*/ 

min w=x3+x4; 

solve with lp/solver=ps; 

print xl x2 x3 x4 sl s2; 

Print XLire 2.70 X30 Xd re SLC SBS2 EEC; 

con con4: x3+x4=0; 

min z=4*xl1+x2; 

solve obj z with lp/solver=ps basis=warmstart; 

print xl x2 x3 x4 sl s2; 

Delnt Xl Te x re XY ,re x4 .re sl re 2.Tc) 
quit; 






































这 段 代 码 中 需要 注意 以 下 3 个 地 方 : 


` 调用 了 两 次 SOLVE 语 句 ， 第 一 次 调用 的 时 候 ， 求 出 了 Phase 1 的 最 优 解 ， 第 二 次 调用 的 时 候 ， 求 出 了 原始 LP 问 题 的 最 优 解 。 当 在 SOLVE 语 名 中 不 指定 选项 OBJ 时 ， 黑 认 求解 的 目标 函数 是 最 近 定 义 的 目 


标 函 数 ， 也 就 是 min z=4x1 十 x2。 
. 在 第 二 次 求解 前 ， 引 入 了 新 的 约束 con4， 这 是 因为 在 原 LP 问 题 下 ， 如 果 存 在 最 优 解 ， 则 x3+x4 必 须 为 0。 


* 在 第 二 次 求解 的 过 程 中 使 用 了 选项 BASIS=WARMSTART，WARMSTART 使 得 在 第 二 次 求解 时 ， 告 知 系统 从 上 一 次 求解 得 到 的 基 可 行 解 出 发 ， 这 样 能 够 较 快 地 得 到 最 优 解 。 在 求解 得 到 某 LP 问 题 的 最 优 
解 后， 如 果 需 要 改变 目标 函数 系数 、 修 改 约束 条 件 右 端 项 、 增 加 或 者 减少 约束 条 件 、 增 加 或 者 减少 决策 变量 ， 并 重新 进行 求解 ， 可 以 考虑 使 用 选项 BASIS=WARMSTART， 能 够 提高 求解 效率 。 


上 述 代码 运行 后 的 部 分 输出 结果 如 图 20.6 所 示 。 
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[teratlons 0 | 
Primal Infeasibility | 4.440892E-16 
Dual Infeasibility 0 
Bound Infeasibility 0 
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x1.RL x2.RC x3.RC xd.RC si1.RC | .RC 
-由 ddDAE-16 | -2 2704E-16 1 1 4 0 D2 





图 20.6 ” 例 20.3 第 二 次 调用 SOLVE 求 解 的 部 分 输出 
该 输出 结果 显示 原始 问题 的 最 优 解 为 x1=0.4，x2=1.8， 目 标 最 优 值 为 3.4， 各 变量 的 REDUCED COST 也 上 暗示 了 该 解 为 最 优 解 。 


上 面 两 次 调用 了 求解 器 来 求解 例 20.3 的 LP 问题 ， 主 要 是 为 了 展示 和 解释 两 阶段 单纯 形 法 。 其 实 SAS/OR 在 求解 线性 规划 问题 时 ， 会 将 两 阶段 法 集成 起 来 ， 而 不 需要 用 户 进行 标准 型 的 转换 ， 也 不 需要 用 
户 自行 分 成 两 阶段 进行 求解 。 用 户 只 需要 在 PROC OPTMODEL 中 声明 原始 的 决策 变量 、 原 始 的 约束 条 件 和 原始 的 目标 函数 ， 就 可 以 对 问题 进行 求解 。 请 看 下 面 一 段 代码 。 


proc optmodel; 
Var xl1>=0, x2>=0; 


con conl: 3*xl+x2=3; 

Con con2:4*xl+3*x2>=6; 
Con con3: xl+2*x2<=4; 
min z=4*xl+x2; 

solve with lp/solver=ps; 
Print XL X23 

quit; 











代码 中 既 有 等 式 约束 ， 也 有 < 和 > 的 不 等 式 约束 ， 最 优 解 如 图 20.7 所 示 。 可 以 看 到 ， 和 图 20.6 中 输出 的 最 优 解 一 样 。 








图 20.7 ” 例 20.3 最 优 解 


20.3 ”对 偶 理 论 和 灵敏 性 分 析 


20.3.1 对偶 问题 的 导出 


考虑 如 下 LP 问 题 : 
min z=cIx 
s.t.Ax=b 

x 宇 0 


有 最 优 解 *， 其 中 A 为 mx n 的 和 矩阵， 假设 A 的 秩 为 m，， 构造 一 个 新 的 函数 g (P) ， 使 9 (p) = (clx+pi (b-Ax) ) ，p 为 m 维 列 向 量 ， 则 有 
5 (p) <clxttp! (b-Ax*) =cTx* 
由 于 g (p) = (CIx+pT (b-Ax) ) =plb+ (ci-pTA) X ， 注意 到 
TT 0， 当 ci-pI4 > 0， 即 cr-pL4 的 每 个 分 量 都 大 于 等 于 0 
min (c -p A)x = 加 加 
-co， 当 cr-pI4 包含 小 于 0 的 分 量 


bs EF 
Et maxpb maxppb ec Pe OE 
因此 ，max g() 一 二 是 一 个 新 的 LP 问题 。 
stAp <ec stAp<c 
我 们 将 新 的 LP 问题 . 守 - 称 为 原 LP 问 题 (Primal) 尖 的 对 偶 问题 (Dual) 。 


从 上 面 的 推导 过 程 可 以 看 出 ， 任 何 一 个 线性 规划 问题 都 有 一 个 与 之 相对 应 的 线性 规划 问题 ， 如 果 前 者 称 为 原 问题 ， 后 者 就 称 为 对 偶 问 题 。 对 偶 问题 是 对 原 问题 从 另 一 角度 进行 的 描述 ， 其 最 优 解 与 原 问 
题 的 最 优 解 有 着 密切 的 联系 。 对 偶 理 论 就 是 研究 线性 规划 及 其 对 偶 问 题 的 理论 ， 是 线性 规划 理论 的 重要 内 容 。 


来 看 一 个 著名 的 对 偶 问 题 一 一 Diet Problem。 


假设 市 场 上 有 n 种 食品 都 含有 m 种 营养 素 ， 其 单位 含量 、 单 位 价格 和 人 体 每 日 对 这 m 种 营养 素 的 需求 如 表 20.4 所 示 。 试 问 消费 者 应 如 何 选 购 食物 ， 既 能 满足 人 体 每 日 对 营养 素 的 需求 ， 又 能 够 花费 最 少 ? 


表 20.4 营养 素 单位 含量 和 单位 价格 数据 


(| = 一 至 
营养 素 食品 1 食品 2 + 食品 天 最 小 需求 量 
有 状 EE ] (4]] (L127 se (ln bl 
莒 养 了 2 2 ey 2 Wa 02 
HH 2 = 拉 
二 站 se 对 LL nn] Un oe in 1 
6 


《人 、 上 4 9 9 
价格 Cl C2 ' i 
假设 xj，j=1，.…，n 分 别 为 对 这 n 种 食品 的 选 购 量 ， 目 标 浮 数 为 每 日 选 购 食品 的 花费 ， 则 可 以 建立 以 下 线性 规划 模型 : 
min Z=C1X1+CoX2+ "二 Cn Xn 
S.t.a11X1 十 a12X2 十 … 十 a1nxn 这 bi 


(Primal) 3a21X1 十 a22X2 十 人 “十 apnXn 宇 b> 


am1X1+am2X2 二 "十 anXn 宇 bnmy 


再 来 考虑 第 二 问题 ， 若 某 厂 商 计划 生产 m 种 药丸 ， 每 种 药丸 含有 一 个 单位 的 某 种 曹 养 素 (m 种 营养 素 中 的 一 种 ， 且 仪 含 一 种 营养 素 ) 。 假 设 yi，i=1，…，m 分 别 为 这 m 种 药丸 的 单位 售 价 ， 因 此 ， 该 三 


商 生产 药丸 的 总 收入 为 bly1+ bzy2+…+bmym=b y， 食 品 i 合 量 相同 营养 素 的 药丸 之 购买 成 本 为 aly1+a2iy2+.…+amiym。 如 果 药 丸 的 价格 小 于 同等 含量 的 食品 价格 ， 那 么 消费 者 会 倾向 于 购买 药丸 ， 因 此 ， 
厂商 在 考虑 药丸 定价 的 时 候 ， 一 定 会 使 得 药丸 的 价格 比 食品 的 价格 便宜 。 因 此 有 ，a1iy1+a2iy2+…+amiym<ci。 同 时 ， 厂 商 也 会 考虑 在 这 些 条 件 下 能 够 获取 的 最 大 收入 ， 故 从 厂商 的 角度 ， 可 以 建立 以 下 线 


性 规划 模型 : 
max 仁 b1y1 十 bzy? 十 .… 十 bynm 
S.t.a11y1 十 a21y2 十 … 十 an1yn< C1 


(Dual) 3a12y1 十 322y2 十 … 十 an2yn < C2 


alny1 十 a2ny2 十 王 十 annyn 人 Cn 


yi 这 0， i=1,， 2 ““,， In 


这 两 个 LP 问题 中 所 使 用 的 参数 都 是 一 样 的 ， 只 是 在 模型 中 的 结构 不 一 样 ，Diet problem 是 很 经 典 的 对 偶 问 题 。 对 照 上 面 Primal 和 Dual 中 的 约束 和 矩阵、 决策 变量 和 右 端 项 的 表示 ， 不 难得 出 二 者 的 关联 之 
处 ， 如 表 20.5 所 示 。 通 常 ， 我 们 将 约束 和 矩阵、 决策 变量 和 右 端 项 具有 这 种 关联 的 两 个 线性 规划 问题 称 为 对 偶 问 题 。 


表 20.5 ”对偶 问题 目标 函数 、 约 束 系 数 、 决 策 变量 等 之 间 的 关系 


(Primal) (Dual) (Primal) (Dual) 
优化 目标 min max 约束 系数 矩阵 A A 
约束 条 件 右 端 项 b C 约束 不 等 式 > < 
目标 系数 C b 决策 变量 上 人 负 非 负 


除了 上 面 提 到 的 关联 之 外 ， 如 果 在 原 问 题 中 ， 约 束 条 件 是 等 式 ， 则 在 对 偶 问题 中 ， 对 应 的 决策 变量 是 自由 的 ， 没 有 非 负 约束 。 如 果 在 原 问题 中 ， 某 个 决策 变量 是 自由 的 ， 则 在 对 偶 问题 中 ， 对 应 的 约束 


条 件 是 等 式 。 


20.3.2 “对偶 问题 的 基本 性 质 
若 原 问题 为 “… 其 对 偶 问题 为 则 对 偶 问 题 具 有 以 下 基本 性 质 。 
. 弱 对 偶 定理 (Weak Duality) : 假设 x 和 y 分 别 为 原 问 题 (P) 和 其 对 偶 问题 (D) 的 可 行 解 ， 则 一 定 有 cIx>>bIy。 
. 最 优 性 定理 : 假设 x 和 y 分 别 为 原 问题 (P) 和 其 对 偶 问 题 (D) 的 可 行 解 ， 并 且 c1 x=pbIy， 则 x 和 y 分 别 为 原 问题 (P) 和 其 对 偶 问 题 (D) 的 最 优 解 。 


: 强 对 偶 定 理 (Dual Theorem) : 若 原 问题 (P) 存在 最 优 解 xx， 则 其 对 偶 问 题 (D) 一 定 存 在 最 优 解 ， 对 偶 问题 的 最 优 解 为 y*=B-Tcs， 且 cTx*=bTy* (其 中 B 为 最 优 基 ，cB 为 最 优 解 对 应 的 目标 系数 向 


jl 


在 实际 线性 规划 问题 中 ， 原 问题 与 其 对 偶 问 题 是 相对 而 言 的 ， 两 者 互 为 对 偶 。 可 以 证 明 ， 对 偶 问 题 的 对 偶 问 题 就 是 原 问 题 。 


20.3.3 ”对 偶 单纯 形 法 


回顾 单纯 形 法 ， 单 纯 形 表 如 表 20.6。 从 初始 单纯 形 表 开始 ， 在 进行 迭代 的 过 程 中 ， 我 们 始终 保持 右 端 项 的 取 值 大 于 等 于 0， 且 通过 进 基 准则 .内 ”选择 进 基 变量 ， 通 过 出 基准 则 :选择 出 基 变 量 ， 


每 一 步 中 都 保持 解 的 可 行 性 ， 直 到 所 有 的 非 基 变量 的 判别 系数 都 大 于 等 于 0 时 ， 达 到 最 优 解 。 


表 20.6 单纯 形 表 











基 变 量 rhs 
蕊 ] CIm+l 到 二 人 
| /而 喘 天 都 大 于 
完 ， woes wes dm+] ses wes b, 等 于 0 
% 


当 所 有 非 基 变量 的 判别 系数 都 大 
于 等 于 0 时 ，LP 问题 达到 最 优 解 





但 是 ， 在 实际 求解 线性 规划 问题 时 ， 有 些 情况 下 单纯 形 表 中 的 右 端 项 向 量 并 不 都 大 于 等 于 0， 反 而 是 所 有 的 判别 系数 都 大 于 等 于 0， 这 就 相当 于 当前 解 不 是 LP 问题 的 可 行 解 ， 如 表 20.7 所 示 。 


由 对 偶 理 论 可 知 ， 在 这 种 情况 下 ， 原 问题 的 对 偶 问 题 是 可 行 的 。 这 时 可 以 使 用 对 偶 单纯 形 法 进行 操作 ， 步 又 如 下 : 


1) 确定 出 基 变 量 。 若 所 有 的 bj>0，1<ism， 则 原 问题 已 经 达到 最 优 ; 否则 ， 假 设 i=r 时 ，””“”" 则 x 为 出 基 变 量 。 


2) 确定 进 基 变量 。 检 查 xr 所 在 行 的 aj， 若 所 有 的 aij> 0， 则 无 解 ) 若 存在 aj<0，m+1sjsn， 则 
0G= max 


假设 j=k 时 ， “那么 xk 为 进 基 变 量 ， 


表 20.7 单纯 形 表 ( 右 端 项 含 负 值 ) 











所 有 非 基 变量 的 判别 系数 都 大 于 等 于 0 





和 单纯 形 法 的 出 友 点 类 似 ， 对 偶 单 纯 形 法 的 基本 思想 是 保持 对 偶 问 题 的 可 行 性 ， 通 过 对 进 基 变 量 和 出 基 变 量 的 选择 ,不 断 迭 代 ， 直 到 将 原 问题 的 解 由 不 可 行 变 为 可 行为 止 ， 即 右 端 项 都 大 于 等 于 0， 此 时 
原 问题 也 达到 最 优 。 因 此 ， 对 偶 单纯 形 法 并 不 是 求解 对 偶 问 题解 的 方法 ， 而 是 利用 对 偶 理论 求解 原 问题 最 优 解 的 方法 。 


总 的 来 讲 ， 单 纯 形 法 是 在 基 可 行 解 中 寻找 满足 最 优 性 条 件 的 最 优 解 ， 而 对 偶 单纯 形 法 则 是 在 所 有 满足 最 优 性 条 件 的 最 优 解 中 寻找 满足 可 行 性 条 件 的 最 优 解 。 
对 偶 单纯 形 法 通常 使 用 在 以 下 情形 中 : 
.在原 LP 问 题 已 经 求 得 最 优 解 之 后 ， 又 在 原 LP 问 题 中 增加 了 新 的 约束 ， 要 进行 重新 求解 。 


.在原 LP 问 题 已 经 求 得 最 优 解 之 后 ， 又 更 改 了 原 LP 问 题 中 的 右 端 项 向 量 ， 要 进行 重新 求解 。 


在 这 两 种 情形 中 ， 在 原 问题 已 经 达到 最 优 解 时 ， 所 有 的 判别 系数 都 是 大 于 等 于 0， 但 是 因为 添加 条 件 使 得 新 问题 的 右 端 项 较 难 判断 ， 如 果 右 端 项 都 大 于 等 于 0， 则 说 明 原 问题 的 最 优 解 就 是 新 问题 的 最 优 
解 ; 如 果 右 端 项 不 全 大 于 等 于 0， 说 明 原 问题 的 最 优 解 在 新 问题 中 已 经 不 可 行 ， 则 正好 使 用 对 偶 单纯 形 法 进行 求解 。 


SAS/OR 的 PROC OPTMODEL 在 求解 LP 问题 时 ， 对 于 存在 最 优 解 的 LP 问题 ， 不 管 其 是 调用 单纯 形 法 还 是 对 侦 单 纯 形 法 ， 都 可 以 求 得 最 优 解 ， 只 是 在 计算 量 上 有 些 差 别 。 系 统 默 认 使 用 对 偶 单纯 形 法 ， 用 
户 也 可 以 自己 指定 使 用 单纯 形 法 还 是 对 偶 单纯 形 法 ， 进 行 指定 的 语句 如 下 : 


solve with lp/ solver=ds; 





其 中 ， 选 项 SOLVER= 用 来 指定 求解 线性 规划 的 方法 ， 前 面 在 介绍 单纯 形 的 时 候 已 经 使 用 过 。 选 项 SOLVER= 的 取 值 有 4 种 : PS (单纯 形 法 ) 、DS (对 偶 单纯 形 法 ) 、IP (内 点 法 ) 、NS (网 络 单纯 形 
法 ) 。 


在 本 章 最 后 一 部 分 ， 将 简要 介绍 一 下 内 点 法 的 基本 原理 ， 在 对 大 型 线性 规划 问题 求解 时 ， 内 点 法 具有 较 好 的 求解 效果 。 网 络 单纯 形 法 主要 用 来 求解 一 类 特殊 的 线性 规划 问题 ， 在 第 22 章 中 ， 将 会 对 此 稍 


20.3.4 对偶 问 题 的 经 济 解 释 
考虑 线性 规划 问题 ” 假设 这 是 一 个 利润 最 大 化 的 生产 计划 问题 ，b 为 各 种 资源 的 约束 向 量 ，A 是 mxn 的 矩阵 ， 且 和 矩阵 A 的 秩 为 m。 
在 这 个 最 大 化 问题 中 ， 当 资源 i 增 加 一 个 单位 〈 即 资源 的 资源 限量 从 bi 增加 到 bi+1) 而 其 他 资源 都 不 变 时 ， 所 引起 的 目标 函数 最 优 值 增加 的 量 则 称 为 资源 i 的 影子 价格 (shadow price) 。 


资源 的 影子 价格 实际 上 就 是 资源 的 边际 利润 。 影 子 价格 越 大 ， 说 明 这 种 资源 相对 紧缺 ; 影子 价格 越 小 ， 说 明 这 种 资源 相对 不 紧缺 ; 如 果 最 优生 产 计划 下 的 某 种 资源 有 剩余 ， 那 么 这 种 资源 的 影子 价格 一 


影子 价格 可 以 通过 以 下 方法 求 得 。 记 B 为 该 问题 最 优 解 对 应 的 基 矩 阵 ， 即 最 优 基 ，cB 为 基 变 量 对 应 的 目标 系数 向 量 ，cN 为 非 基 变 量 对 应 的 目标 系数 向 量 ， 则 该 LP 问 题 的 最 优 解 可 表示 为 "| 令 b= (0， 


..….，0，1，0，...，0) T， 其 中 第 i 个 分 量 为 1， 其 余 分 量 都 为 0， 则 目标 函数 最 优 值 的 增 量 ^z 可 记 为 


村 
i[/B (D+AD) Bb 


人 -一 c 0 c! OO 


对 于 B-TcB 这 个 表达 式 我 们 一 定 不 陌生 ， 在 介绍 强 对 偶 定理 的 时 候 ， 对 偶 问题 的 最 优 解 即 为 =B-TcB。 也 就 是 说 ， 对 于 形 如 3 的 线性 规划 问题 ， 各 资源 的 影子 价格 就 是 其 对 偶 问 题 的 最 优 解 。 
在 求解 某 些 线性 规划 问题 时 ， 我 们 发 现 影子 价格 的 符号 可 正 可 负 ， 这 主要 和 约束 条 件 不 等 式 的 方向 (< 或 者 > 或 者 =) 及 优化 目标 (min 或 者 max) 有 关 ， 并 且 具 有 如 下 规律 : 


当 优 化 目标 为 max 时 ， 方 向 为 过 的 约束 条 件 具 有 非 负 的 影子 价格 。 考 虑 两 个 优化 目标 都 为 maxg 的 LP 问 题 ， 分 别 记 为 LP1 和 LP2。LP1 和 LP2 具 有 相同 的 目标 函数 ， 并 且 LP1 的 可 行 域 包含 在 LP2 中 ， 因 此 
LP1 的 目标 最 优 值 一 定 小 于 等 于 LP 2 的 目标 最 优 值 。 假 设 LP 1 的 最 优 解 为 x*， 相 应 的 最 优 值 为 z2， 则 LP 2 也 可 以 取得 z'; 并 且 由 于 LP 2 的 可 行 域 更 大 ，LP 2 的 最 优 值 一 定 是 大 于 等 于 z'。 换 句 话说， 在 一 个 优化 
目标 为 max 的 问题 中 ， 可 行 域 的 扩大 一 定 不 会 使 得 最 优 值 降低 。 结 合影 子 价 格 的 定义 ， 对 于 方向 为 三 的 约束 条 件 ， 如 果 增 加 右 端 项 的 取 值 ， 必 然 会 导致 可 行 域 的 扩大 ， 因 此 ， 影 子 价格 必定 为 非 负 值 。 


“ 当 优 化 目标 为 max 时 ， 用 与 上 面 同样 的 分 析 方 法 可 以 得 知 ， 方 向 为 宇 的 约束 条 件 具有 非 正 的 影子 价格 。 


当 优化 目标 为 max 时 ， 等 式 约 束 条 件 的 影子 价格 可 正 可 负 。 这 也 可 以 理解 ， 当 等 式 约 束 条 件 的 右 端 项 改变 时 ， 整 个 可 行 域 都 发 生 了 变化 ， 那 么 新 的 最 优 值 可 能 增 大 也 可 能 减 小 ， 则 影子 价格 可 能 为 正 也 
可 能 关 负 o 


当 优 化 目标 为 min 时 ， 方 向 为 入 的 约束 条 件 具 有 非 正 的 影子 价格 。 在 一 个 优化 目标 为 min 的 问题 中 ， 可 行 域 的 扩大 一 定 不 会 使 得 最 优 值 提 高 ， 那 么 在 增加 右 端 项 的 取 值 之 后 ， 目 标 函 数 的 增加 量 必然 是 
个 非 正 值 ， 故 影子 价格 必定 为 非 正 值 。 


当 优 化 目标 为 min 时 ， 用 与 上 面 同 样 的 分 析 方 法 可 知 ， 方 向 为 > 的 约束 条 件 具 有 非 负 的 影子 价格 。 
当 优化 目标 为 min 时 ， 等 式 约 束 条 件 的 影子 价格 可 正 可 负 。 


在 PROC OPTMODEL 中 ， 使 用 后 缀 .DUAL， 可 以 输出 约束 条 件 的 影子 价格 ， 语 法 如 下 : 


print 约 束 条 件 .DUAL; 


需要 注意 的 是 ， 在 PROC OPTMODEL 中 输出 的 影子 价格 的 符号 ， 除 了 和 约束 不 等 式 条 件 的 方向 及 优化 目标 相关 以 外 ， 还 和 约束 不 等 式 条 件 在 SAS 代 码 中 的 表达 方式 相关 ， 具 体 如 下 : 
` 如 果 决 策 变量 都 出 现在 约束 条 件 不 等 式 的 左 侧 ， 且 常数 参数 都 出 现在 不 等 式 的 右 侧 ， 如 g (x) <c 或 g (x) >>c， 则 影子 价格 的 符号 和 上 面 列举 的 规律 一 致 。 


.如果 决策 变量 都 出 现在 约束 条 件 不 等 式 的 右 侧 ， 且 常数 参数 都 出 现在 不 等 式 的 左 侧 ， 如 c>g (x) 或 c<g (x) ， 那 么 影子 价格 的 符号 正好 与 上 面 列举 的 规律 相反 。 为 了 便于 对 影子 价格 的 理解 ， 建 议 尽 
量 不 要 采用 该 种 代码 书写 方式 。 


` 如 果 决 策 变 量 同时 出 现在 约束 条 件 不 等 式 的 两 侧 ， 则 影子 价格 的 符号 仅 依 赖 于 不 等 式 的 方向 ， 与 上 面 列 举 的 规律 一 样 。 
线性 规划 问题 在 给 定 资源 下 的 生产 计划 安排 中 有 着 重要 的 作用 。 下 面 来 看 一 个 生产 计划 问题 的 例子 。 


例 20.4: 某 个 体 作 坊 生产 甲 、 乙 两 种 商品 ， 每 生产 一 件 甲 产品 耗 时 2 个 小 时 ， 每 生产 一 件 乙 产 品 耗 时 1 个 小 时 ; 每 件 甲 产品 耗材 1m3， 每 件 乙 产 品 耗材 1.5m3; 每 周 中 甲 产 品 至 少 生产 6 件 ， 且 甲 产品 的 市 
场 最 大 需求 量 是 10 件 ， 乙 产品 的 市 场 最 大 需求 量 是 30 件 ; 每 件 甲 产 品 的 利润 是 160 元 ， 每 件 乙 产 品 的 利润 是 120 元 。 该 作坊 每 周 的 工作 时 间 是 40 小 时 ， 用 于 生产 甲 、 乙 产品 的 原材料 为 50m3， 问 该 作坊 应 如 
何 安排 生产 计划 才能 使 得 利润 达到 最 大 ”该 作坊 工作 时 间 的 影子 价格 、 原 材料 的 影子 价格 分 别 为 多 少 ?” 该 作坊 是 否 适 合 拓展 甲 产 品 和 乙 产 品 的 市 场 需求 ? 


假设 该 作坊 每 周 生 产 x1 件 甲 产品 ， 生 产 x2 件 乙 产品 ， 那 么 可 以 建立 如 下 线性 规划 模型 : 
Max z=160 X x1+120 X x 

s.t.2x1+x2 壹 40 (工时 约束 ) 

xl1+1.5x?< 50 (原材料 约束 ) 

x1 宇 6 ( 甲 产品 最 小 生产 量 约束 ) 

Xi 三 10 ( 甲 产 品 市 场 需求 约束 ) 

xX) 三 30  ( 乙 产 品 市 场 需求 约束 ) 

xl>0，x>0 (符号 约束 ) 

运用 对 偶 单纯 形 法 进行 求解 ， 代 码 如 下 : 


proc optmodel; 
var xl1>=0, x2>=0; 
con time: 2*xl+x2<=40; 
con resource: xl+1 .5*x2<=50) 
con demandl: xl>=6; 








con demand2: xl1l<=10; 

con demand3: x2<=30; 

max 2Z=]60*xl+120*x2; 

solve with lp/solver=ds; 

print xl x2; 

print time.dual resource.dual demandl .dual demand? .dual demand3.dual; 
quit; 

















在 上 述 代 码 中 ， 使 用 CON 语 句 进行 约束 条 件 声明 的 时 候 ， 分 别 将 工时 、 原 材料 、 甲 产品 的 最 小 生产 量 、 甲 产品 的 市 场 需求 及 乙 产 品 的 市 场 需求 5 个 约束 条 件 命名 为 time、resource、demand1、 
demand2 和 demand3， 因 此 在 输出 影子 价格 时 ， 就 可 以 直接 使 用 time.dual、resource.dual、demand1.dual、demand2.dual 和 demand3.dual。 如 果 在 代码 中 没有 为 约束 条 件 命名 ， 系 统 将 自动 按 约束 
条 件 声明 的 顺序 将 约束 条 件 命名 为 ACON [1]、_ACON [21...， 并 存储 在 数组 ACON 中 。 


选项 SOLVER=Ds 指 定 使 用 对 偶 单纯 形 法 对 该 线性 规划 问题 进行 求解 ， 输 出 如 图 20.8 所 示 。 


The OPTMODEL Procedure 


Solution Summary 
Solver LP 
Algorithm / Dual Simplex 
Objective Function z 
solution Status Wptimal 
Objective Value 4320 
lterations 4 


Primal Infeasibility 0 
Dual Infeasibility 0 
Bound Infeasibility 0 


x1 x 
6b 28 


time.DUAL resource.DUAL demandi.DUAL | demand2.DUAL demand3.DUAL 
120 0 -80 0 0 


图 20.8” 例 20.4 的 部 分 输出 


从 输出 结果 看 ， 该 LP 间 题 调用 对 偶 单 纯 形 法 求解 ， 经 过 4 次 迭代 后 达到 最 优 ， 每 周 生 产 6 件 甲 产品 和 28 件 乙 产 品 时 ， 可 以 获得 最 大 利润 4320 元 。 工 时 约束 的 影子 价格 为 120 元 ， 表 示 如 果 每 周 生 产 工时 从 
40 个 小 时 提高 到 41 个 小 时 ， 该 作坊 的 总 利润 将 提高 120 元 。 原 材料 的 影子 价格 为 0%， 说 明 原 材料 仍 有 剩余 (6+1.5x28<50) 。 甲 产品 和 乙 产 品 的 最 大 需求 的 影子 价格 也 是 0， 这 表明 就 目前 的 生产 状况 而 言 ， 
该 作坊 若 拓展 甲 产 品 和 乙 产 品 的 销售 市 场 是 没有 意义 的 ， 不 能 给 作坊 带 来 更 多 的 利润 。 但 是 甲 产品 的 最 小 需求 量 的 影子 价格 为 -80 元 ， 是 一 个 负数 ， 这 是 因为 该 约束 不 等 式 为 X1>6， 若 将 该 约束 的 右 端 项 增 
加 1， 即 约束 不 等 式 变 为 X1>7， 那 么 最 大 利润 将 减少 80 元 。 


20.3.5 “灵敏 性 分 析 


在 LP 问 题 盖 中， 当 约 束 和 矩阵 A 的 元 素 aij、 右 端 项 向 量 b 的 分 量 bi 和 目标 系数 向 量 的 分 量 cj 分 别 发 生变 动 时 ， 其 最 优 解 或 者 最 优 值 将 会 产生 怎样 的 变化 呢 ? 要 回答 这 个 问题 ， 一 种 途径 是 对 线性 规划 问题 进 
行 重新 建 模 ， 并 运用 单纯 形 算法 进行 求解 。 那 么 能 否 不 重新 求解 ， 就 可 对 上 述 变化 给 出 合理 的 判断 和 分 析 呢 ?可 以 的 ， 事 实 上 这 就 是 我 们 要 讨论 的 灵敏 性 分 析 。 
灵敏 性 分 析 在 线性 规划 问题 中 具有 很 实际 的 意义 。 在 很 多 条 件 下 ，LP 问 题 中 的 参数 (约束 条 件 系数 、 右 端 项 或 目标 系数 ) 会 发 生 一 定 的 改变 。 例 如 ， 在 例 20.4 中 ， 甲 产品 和 乙 产品 的 利润 发 生 了 改变 ， 


或 者 原材料 的 数量 发 生 了 改变 。 当 这 些 参数 发 生 改 变 时 ， 通 过 灵敏 性 分 析 即 使 不 进行 重新 求解 ， 也 可 以 分 析 判 断 对 生产 计划 将 会 造成 哪些 影响 。 当 原材料 数量 增加 1m3 时 ， 当 前 解 仍然 是 最 优 解 。 对 于 小 规 
模 的 线性 规划 问题 ， 重 新 求解 可 能 不 会 花费 多 少 计算 量 ， 但 是 对 于 一 个 具有 成 王 上 万 个 决策 变量 和 约束 条 件 的 线性 规划 问题 ， 重 新 求解 的 计算 量 是 非常 可 观 的 。 


在 LP 问 题 半 中 ， 不 失 一 般 性 ， 假 设 A 为 mxn 的 系数 约束 矩阵 ， 和 矩阵 A 的 前 m 列 线性 无 关 ， 则 A 可 以 分 块 表示 为 A= (B N) ，B 为 最 优 基 。 相 应 的 ，x 也 可 分 块 记 为 "jxB 为 基 变 量 ，xN 为 非 基 变量 ，cB 为 
变量 的 目标 系数 ，cN 为 非 基 变量 的 目标 系数 ， 则 最 优 单纯 形 表 如 表 20.8 的 右边 部 分 所 示 。 


表 20.8 推导 最 优 单 纯 形 表 






| 影 
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因为 表 20.6 中 的 右边 部 分 是 最 优 单纯 形 表 ， 因 此 ， 非 基 变 量 的 判别 系数 cIN-cTBB-1N>0， 并 且 最 优 解 B-1b>0。 所 以 ， 当 约 束 和 矩阵 A 的 元 素 aij、 右 端 项 向 量 b 的 分 量 b 和 目标 系数 向 量 的 分 量 cj 分 别 发 生变 
动 时 ， 由 上 面 的 最 优 单纯 形 表 就 可 以 分 析出 对 最 优 性 、 可 行 性 及 目标 值 的 可 能 影响 。 可 进行 如 下 归纳 : 


1) 当 右 端 项 向 量 b 的 分 量 b: 变 动 时 ，B-1b 将 发 生变 化 ，cTpB-1b 也 会 变化 ， 判 别 系数 cTIN-cTpB-1N 不 受 影响 ， 因 此 当前 解 的 最 优 性 不 会 改变 ， 但 是 当前 的 可 行 性 和 目标 值 会 受到 影响 。 
2) 当 目 标 系数 向 量 的 分 量 cj 发 生变 动 ， 且 c 是 cp 的 分 量 时 ，cTN-cTBB-1N 可 能 会 改变 ， 那 么 当前 解 的 最 优 性 将 可 能 会 受 影响 ， 同 时 目标 值 也 会 改变 ， 但 是 当前 解 的 可 行 性 不 会 受 影响 。 
3) 当 目 标 系数 向 量 的 分 量 cj 发 生变 动 ， 且 cj 是 cN 的 分 量 时 ， 最 优 性 将 可 能 会 受 影响 ， 当 前 解 的 可 行 性 和 目标 值 都 不 会 受 影 响 。 

4) 当 约 束 和 矩阵 A 的 元 素 aij 发 生变 动 时 ， 且 ai 书 憩 阵 N 中 的 元 素 时 ， 最 优 性 将 可 能 会 受 影响 ， 当 前 解 的 可 行 性 和 目标 值 都 不 会 受 影响 。 

5) 当 约 束 德 阵 A 的 元 素 ai 发 生变 动 时 ， 且 ai 是 矩阵 B 中 的 元 素 时 ， 情 况 比较 复杂 ， 需 视 情况 而 定 。 


在 第 22 章 中 将 具体 介绍 当 这 些 参数 发 生变 化 时 在 PROC OTPMODEL 中 进行 模型 更 新 的 操作 。 


20.4 ”内 操 法 


在 计算 科学 中 ， 算 法 的 时 间 复 杂 度 是 一 个 函数 ， 它 定量 描述 了 该 算法 的 运行 时 间 。 时 间 复 杂 度 澡 用 符号 0 表述， 不 包括 这 个 函数 的 低 阶 项 和 最 高 阶 项 的 系数 ， 常 见 的 时 间 复 杂 度 有 线性 阶 O (n) 、 平 方 
阶 O(n*) 和 立方 阶 O (m3) 等 。 这 里 n、n2、n3 都 是 关于 n 的 多 项 式 ， 记 为 p (n) 。 时 间 复 杂 度 是 O (pP (n) ) 的 算法 称 为 多 项 式 时 间 算法 。 不 能 够 由 n 的 多 项 式 控制 时 间 复 杂 度 的 算法 被 称 为 指数 时 间 算 
法 。 


1972 年 ，V.Klee 和 G.Minty 构 造 出 一 个 线性 规划 问题 的 例子 ， 如 果 使 用 单纯 形 方法 进行 求解 ， 迭 代 过 程 需 要 的 计算 时 间 复 杂 度 为 O (2") ， 这 个 例子 意味 着 ， 在 理论 上 ， 随 着 问题 规模 n 的 不 断 增 大 ， 单 
纯 形 法 的 时 间 复 杂 度 将 呈 指 数 阶 增长 ， 但 它 并 不 是 一 个 多 项 式 算 法 。 也 就 是 说 ， 单 纯 形 法 虽然 在 实际 应 用 中 非常 有 效 ， 并 且 占有 绝对 优势 ， 但 是 在 最 坏 的 情况 下 ， 随 着 约束 条 件 和 决策 变量 的 增加 ， 它 求解 
所 需 的 迭代 次 数 将 随 着 问题 规模 的 上 升 呈 指 数 们 增长， 收敛 很 慢 。 


内 点 法 (Interior-Point Method) 在 这 一 方面 具备 突出 的 优点 。 内 点 法 是 一 种 求解 线性 规划 与 非 线 性 凸 优 化 的 算法 ， 它 是 完全 不 同 于 单纯 形 法 的 一 类 算法 ， 属 于 多 项 式 时 间 算 法 。 第 一 个 将 内 点 法 用 于 
线性 规划 问题 的 是 贝尔 实验 室 的 Karmarkar， 他 在 1984 年 发 表 的 论文 中 率先 提出 了 “内 点 ”迭代 的 思想 ， 在 可 行 域内 部 进行 寻 优 计算 ， 从 而 得 到 下 一 个 迭代 点 。 数 值 计算 表明 ， 对 于 大 型 的 实际 应 用 问题 ， 


Karmarkar 提 出 的 现代 内 点 算法 是 建立 在 单纯 形 结构 上 的 ， 但 是 与 单纯 形 法 沿 着 可 行 域 边界 寻 找 最 优 解 不 同 ， 内 点 法 是 从 初始 内 点 出 发 的 ， 沿 着 最 速 下 降 方向 ， 从 可 行 域 的 内 部 走向 最 优 解 。 内 点 法 是 
在 可 行 域内 部 寻找 最 优 解 。 


现代 内 点 算法 主要 分 以 下 3 类 : 
. 投影 尺度 法 (Projective Scaling) 
` 仿 射 尺度 法 (Affine Scaling) 
. 路 径 跟踪 法 (Path Following) 


对 于 大 规模 线性 规划 问题 ， 随 着 约束 条 件 和 决策 变量 数目 的 增加 ， 现 代 内 点 法 的 迭代 次 数 变 化 较 少 。 作 为 一 种 具有 多 项 式 时 间 复 杂 度 的 线性 规划 算法 ， 内 点 法 的 收敛 性 和 计算 速度 均 优 于 单纯 形 法 ， 并 
且 可 以 将 其 应 用 于 非 线 性 问题 的 求解 中 。 


PROC OPTMODEL 中 使 用 内 点 法 求解 线性 规划 问题 时 需 使 用 选项 SOLVER=INTERIORPOINT， 也 可 以 简写 成 SOLVER=1P。 


人 @ 注 意 ”在 小 规模 问题 中 ， 内 点 法 在 迭代 次 数 上 可 能 比 图 解法 、 单 纯 形 法 或 者 对 偶 单 纯 形 法 多 ， 但 是 在 大 型 问题 中 ， 内 点 法 具有 很 大 的 优势 。 


20.5 ”本章 小 结 


本 章 介绍 了 线性 规划 问题 的 基本 理论 ， 包 括 线性 规划 问题 的 定义 、 标 准 型 、 标 准 型 的 转换 技巧 、 对 偶 理论 、 灵 敏 性 分 析 等 知识 ， 还 讨论 了 求解 线性 规划 问题 的 4 种 基本 方法 : 图 解法 、 单 纯 形 法 、 对 偶 单 
纯 形 法 以 及 具有 多 项 式 时 间 复 杂 度 的 现代 内 点 法 。 在 对 这 些 基本 理论 的 介绍 过 程 中 ， 还 结合 示例 ， 向 读者 展示 了 后 3 种 方法 在 SAS/OR 的 PROC OPTMODEL 中 的 调用 方法 ， 并 就 输出 结果 进行 了 解释 说 明 。 


第 21 章 运用 PROC OPTMODEL 建 立 线性 规划 模型 


在 前 一 章 中 ， 讨 论 了 线性 规划 的 基本 理论 和 常用 算法 ， 并 结合 PROC OPTMODEL 的 简单 示例 介绍 了 在 SAs 中 运用 求解 器 调用 这 些 算法 的 方式 ， 并 对 基本 的 输出 结果 进行 了 解读 。 本 章 主 要 介绍 如 何 运用 


PROC OPTMODEL 建 立 线性 规划 模型 ， 包 括 PROC OPTMODEL 中 的 基本 概念 、 过 程 步 的 基本 结构 及 建 模 时 各 种 语句 的 使 用 方法 和 表达 方式 。 这 部 分 内 容 对 于 运用 PROC OPTMODEL 解 决 优化 问题 来 说 非 
常 重要 ， 因 为 只 有 首先 将 优化 模型 以 正确 的 方式 表达 出 来 ， 才 能 在 之 后 的 求解 过 程 中 选择 合适 算法 进而 寻找 最 优 解 。 本 章 最 后 还 将 介绍 如 何在 PROC OPTMODEL 中 读 取 和 创建 数据 集 。 


21.1 基本 概念 
为 了 表述 方便 ， 在 本 章 的 开始 先 介 绍 PROC OPTMODEL 中 涉及 的 基本 概念 。 
21.1.1 参数 


在 例 19.1 中 介绍 PROC OPTMODEL 的 例子 时 ,我 们 把 所 有 已 知 的 数值 型 常数 直接 用 数字 的 方式 表示 在 目标 遂 数 和 约束 条 件 表达 式 中 。 对 于 小 型 的 优化 问题 ， 这 是 一 种 合理 的 做 法 ， 程 序 的 编写 也 相对 简 
单 。 但 是 更 多 时 人 息 ， 这 种 做 法 会 带 来 很 多 不 便 ， 一 方面 它 使 得 约束 条 件 或 者 目标 函数 的 意义 不 够 直观 ， 不 利于 展示 模型 的 基本 结构 ;， 另 一 方面 对 模型 的 修改 也 非常 不 易 ， 尤 其 是 对 于 大 型 优化 问题 来 说 。 

在 PROC OPTMODEL 中 ， 可 以 将 这 些 数 值 型 常数 表示 为 不 同 的 参数 ， 在 编写 目标 函数 或 者 约束 条 件 的 表达 式 时 则 使 用 参数 的 名 称 代 蔡 原始 的 数字 。 在 这 种 方式 下 ， 就 可 以 通过 修改 参数 的 取 值 达到 | 修 
改 模型 的 效果 。 

在 求解 的 过 程 中 ， 参 数 的 取 值 不 会 发 生 改变 ， 因 此 目标 函数 系数 、 约 束 条 件 系数 和 右 端 项 都 可 以 用 参数 表示 。 在 PROC OPTMODEL 中 ， 参 数 的 取 值 可 以 在 PROC OPTMODEL 中 直接 赋值 ， 也 可 以 通过 


读 取 数 据 集 获 得 。 
21.1.2 ”索引 和 索引 集 


索引 集 是 一 个 集合 ， 在 PROC OPTMODEL 中 ， 我 们 把 这 个 集合 中 的 元 素 称 为 项 。 在 PROC OPTMODEL 中 ， 索 引 集 的 运用 非常 广泛 ， 提 高 了 模型 的 可 读 性 。 


很 多 优化 模型 中 含有 大 量 的 决策 变量 或 参数 ， 根 据 不 同 的 用 途 ， 这 些 决 策 变 量 或 者 参数 往往 可 以 分 成 不 同 的 类 别 ， 例 如 表示 不 同 产 品 价格 的 参数 和 表示 不 同 产品 成 本 的 参数 就 可 以 归 类 为 两 个 不 同 的 参 
数 类 别 ， 即 价格 和 成 本 ， 每 个 类 别 可 以 定义 为 一 个 对 应 的 参数 数组 。 参 数 数 组 中 的 每 一 个 元 素 都 包含 两 个 部 分 ， 一 部 分 为 该 元 素 的 标识 或 位 置 ， 另 一 部 分 为 该 元 素 的 取 值 。 在 声明 这 样 的 参数 数组 时 ， 就 需 
要 使 用 索引 集 了 ， 用 来 自 一 个 或 多 个 索引 集 的 项 去 定义 数组 中 每 个 元 素 的 标识 或 位 置 。PROC OPTMODEL 中 索引 集 的 项 可 以 是 数字 或 者 字符 。 


SET 语句 用 来 声明 索引 集 ， 在 下 面 的 代码 中 ， 首 先 声 明了 一 个 索引 集 PRODUCT， 并 且 基 于 这 个 索引 集 定 义 了 表示 产品 售 价 的 参数 数组 Price。 


proc optmodel; 
set<string> PRODUCT=/carA carB/; 
num Price{PRODUCT}; 

quit; 





其 中 ，SET 语 句 声明 了 一 个 索引 集 ， 这 个 集合 包含 两 个 项 carA 和 carB; NUM 语 句 声明 了 一 个 参数 数组 Price， 根 据 索引 集 PRODUCT 中 的 项 ， 参 数 数组 Price 包 含 两 个 元 素 ， 分 别 标识 为 carA 的 参数 和 
carB 的 参数 ， 每 个 元 素 尚未 赋值 。 在 对 数组 赋值 之 后 ， 参 数 数组 Price 所 存储 的 就 是 产品 carA 和 carB 的 价格 了 。 


下 面 的 代码 用 另外 一 种 形式 声明 了 一 个 基于 索引 集 的 参数 数组 ， 该 索引 集 的 项 为 数字 。 














num P{lhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/..3}; 








NUM 语 句 表示 声明 数值 型 参数 数组 ，“http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/OEBPS/Text/..” 是 范围 表达 式 。 
“1http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/OEBPS/Text/..3” 表 示 从 1 至 3 的 整数 1、2、3。 索 引 集 
{1http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/OEBPS/Text/..3} 中 包含 3 个 项 ， 分 别 为 1、2 和 3， 该 语句 声明 了 一 个 参数 数组 P，P 为 索 
引 集 中 的 每 个 项 都 分 配 了 一 个 固定 的 位 置 存放 数值 型 参数 。 


索引 集 不 仅 可 以 用 在 参数 数组 中 ， 也 可 以 用 在 目标 遂 数 、 约 束 条 件 、 决 策 变量 、 隐 式 决 策 变量 中 。 


21.1.3 ”数据 类 型 


在 PROC OPTMODEL 中 ， 参 数 的 取 值 和 表达 式 中 可 以 含有 数值 或 者 字符 串 ， 对 应 的 数据 类 型 为 NUMBER 和 STRING。NUMBER 类 型 表示 数值 型 ， 和 数据 集中 的 数值 型 一 样 ， 并 且 可 以 简写 成 NUM ; 
STRING 类 型 表示 字符 型 ， 和 数据 集中 的 字符 类 型 一 样 ， 但 是 在 PROC OPTMODEL 中 ， 字 符 串 的 长 度 可 以 达到 65534 个 字符 (数据 集中 的 字符 串 长 度 最 大 为 32767 个 字符 ) 。NUMBER 类 型 和 STRING 类 型 


统称 为 标量 类 型 。 


在 PROC OPTMODEL 中 ， 参 数 只 有 两 种 类 型 ， 一 种 是 数值 型 参数 ， 一 种 是 字符 型 参数 。 集 合 的 类 型 则 有 很 多 种 ， 其 中 项 的 数据 类 型 除了 可 以 是 数值 或 者 字符 外 ， 也 可 以 是 元 组 (Tuple) ， 但 是 在 同一 
个 集合 中 ， 项 的 数据 类 型 必须 一 致 。 元 组 的 表达 形式 如 下 : 





< 表达 式 1,.. 表 达 式 n> 


一 个 元 组 用 一 对 尖 括 号 括 起 来 ， 当 有 nm 个 表达 式 时 ， 表 示 这 是 一 个 n 元 组 ， 每 个 表达 式 中 间 用 有 逗号 隔 开 。 


如 果 集 合 中 的 项 是 元 组 ， 则 每 个 项 必须 都 是 相同 类 型 的 元 组 。 所 谓 相同 类 型 的 元 组 ， 指 的 是 每 个 元 组 对 应 位 置 的 数据 类 型 必须 一 样 。 例 如 ， 下 面 一 段 代 码 声明 了 集合 PART : 


set <string,number> PART; 





PART 中 的 每 个 项 都 是 一 个 二 元 组 ， 在 这 个 二 元 组 中 ， 第 一 个 位 置 的 数据 类 型 为 STRING， 第 二 个 位 置 的 数据 类 型 为 NUMBER。 


21.1.4 名称 


在 PROC OPTMODEL 中 ， 决 策 变 量 、 参 数 、 约 束 条 件 或 者 目标 函数 等 的 命名 规则 和 DATA 步 中 一 样 ， 即 : 长 度 最 长 为 32 个 字符 ， 必 须 以 字母 开始 ， 可 以 是 数字 、 字 母 和 下 划 线 的 任意 组 合 ， 并 且 名 称 中 
字母 的 大 小 写 不 敏感 。 需 要 注意 的 是 ， 为 了 与 避免 PROC OPTMODEL 中 的 保留 名 称 冲 突 ， 命 名 的 时 候 建议 不 要 以 下 划 线 开头 。 


为 了 增加 程序 的 可 读 性 ， 在 进行 命名 的 时 候 ， 名 称 应 尽量 直观 、 简 洁 。 


21.1.5 表达 起 


在 PROC OPTMODEL 中 ， 表 达 式 根据 返回 值 的 类 型 可 以 分 为 3 种 : 逻辑 表达 式 、 集 合 表达 式 和 数值 表达 式 。 


. 逻辑 表达 式 ， 返 回 值 是 逻辑 值 1 或 者 0。PROC OPTMODEL 中 逻辑 表达 式 的 表达 方式 、 运 算 罗 辑 和 优先 级 与 DATA 步 中 的 基本 一 致 。 但 是 ， 在 PROC OPTMODEL 中 ，NOT 操 作 符 的 优先 级 比 关系 操作 
符 〈 如 >，< 等 ) 低 ， 例 如 ，not 1<2 等 价 于 hot (1<2) 。 


* 集合 表达 式 ， 返 回 值 是 一 个 集合 。 在 第 22 章 中 ， 将 重点 介绍 PROC OPTMODEL 中 的 各 种 集合 运算 。 


. 数值 表达 式 ， 这 里 说 的 数值 包含 数值 型 和 字符 串 型 ， 返 回 值 可 以 是 数值 或 者 字符 串 。 数 值 表达 式 的 操作 数 可 以 是 变量 、 参 数 ， 也 可 以 是 常数 ， 操 作 符 主要 包括 “||”、 “+”、“-”、 “*”、 
“/”， 以 及 后 面 介绍 的 SUM 集 成 表达 式 、MAX 集 成 表达 式 、MAX 集 成 表达 式 等 。 常见 的 数值 表达 式 的 例子 有 x+Ty、x、3、ttim (last) ||'or'||first 等 。 和 DATA 步 不 一 样 的 是 ，PROC OPTMODEL 中 字符 的 长 
度 是 动态 定义 的 ， 因 此 不 会 出 现 截 断 的 情况 。 


21.1.6 ”标识 表达 式 


在 PROC OPTMODEL 中 ， 参 数 、 决 策 变量 、 目 标 阔 数 、 约 束 条 件 等 在 大 多 数 情 况 下 都 是 基于 索引 集 声明 的 ， 因 此 ， 大 部 分 都 是 数组 形式 ， 使 用 标识 表达 式 (1dentifier Expressions) 可 以 定位 到 数组 
中 的 具体 位 置 。 使 用 标识 表达 式 的 语法 如 下 : 





其 中 ， 名 称 可 以 是 参数 数组 的 名 称 、 决 策 变量 组 的 名 称 、 目 标 函 数组 的 名 称 、 约 束 条 件 组 的 名 称 或 者 隐 式 变量 组 的 名 称 。 [表达 式 1，.… 表 达 式 n] 指 定数 组 内 部 的 具体 标识 ， 表 达 式 1、.…、 表 达 式 n 返 回 的 
是 定义 数组 时 使 用 的 索引 集中 的 项 。 


下 面 一 段 代 码 声明 了 参数 数组 A 和 人 参数 数组 Price，A 的 索引 集中 含有 两 个 二 元 组 项 <1，2> 和 <3，4> ，Price 的 索引 集中 含有 carA 和 carB 两 个 项 。 


proc optmodel; 
set <num,num> ISET={<1,2>,<3,4>}; 





























set<string> PRODUCT=/carA carB/; 
num Price{PRODUCT}; 





A[1l,2]=0; /*valid*/ 

A[3,2]=0; /*invalid index*/ 

Price[carA]=10,000; /*carA 的 价格 为 10, 000 美 元 */ 
quit; 


其 中 ， 第 一 个 赋值 语句 中 的 标识 表达 式 A[1，2] 是 正确 的 ; 第 二 个 赋值 语句 中 的 标识 表达 式 A[3，2] 则 不 正确 ， 因 为 <3，2> 不 是 A 的 索引 集 1SET 中 的 项 ， 所 以 数组 A 没 有 A[3，2] 这 个 元 素 ; 第 三 个 赋值 语 
句 为 将 carA 的 价格 赋值 为 10000。 


21.1.7 ”函数 表达 式 


大 部 分 在 DATA 步 或 者 通过 宏 %SYSFUNC 可 以 使 用 的 函数 在 PROC OPTMODEL 中 也 可 以 使 用 ， 但 也 有 一 些 可 以 在 DATA 步 中 使 用 的 函数 在 PROC OPTMODEL 中 不 可 以 使 用 ， 这 些 函 数 可 以 分 为 以 下 3 


类 : 
“LAG 函数 、DIF 逊 数 和 DIM 吕 数 
. 涉及 DATA 步 中 PDV 的 函数 
“ 涉及 符号 属性 的 函数 

21.1.8 索引 集 的 补充 


一 个 或 者 多 个 集合 可 以 通过 某 种 形式 组 成 一 个 新 的 集合 ， 这 种 方法 主要 用 在 以 集合 作为 参数 、 目 标 函 数 和 约束 条 件 等 的 索引 集中 。 语 法 如 下 : 








{ 索 引 集 1[ 索引 集 2,.…, 索引 集 n] [ :逻辑 表达 式 ] } 











人 S 注 意 为 了 和 SAS/OR 的 帮助 文档 一 致 ， 在 介绍 语法 的 时 候 ， 将 可 选 的 要 素 或 者 选项 用 [来 表示 。 


所 有 的 索引 集 都 用 “{” 括 起 来 ， 每 个 索引 集 之 间 用 逗号 分 隔 ， 这 个 表达 式 返 回 的 集合 是 由 索引 集 1、…、 索 引 集 n 交 叉 相 乘 之 后 得 到 的 集合 。 其 中 ， 每 个 索引 集 可 以 用 如 下 3 种 形式 之 一 表示 : 











虚拟 参数 IN 集合 表达 式 
< 虚拟 参数 1 [，.., 虚拟 参数 n] > IN 多 














浊 

o> 
闵 
和 
此 








. 第 一 行 仅 返回 一 个 集合 ; 
第 二 行 表明 集合 表达 式 中 的 项 是 一 元 组 ， 关 键 字 IN 声 明了 一 个 虚拟 参数 ， 通 过 虚拟 参数 可 以 引用 集合 中 的 项 。 


. 第 三 行 表明 集 合 表达 式 中 的 项 是 一 个 n 元 组 ， 关 键 字 IN 在 声明 虚拟 参数 的 同时 ， 必 须 声明 n 个 虚拟 参数 ， 并 使 用 <> 将 这 些 庶 拟 参数 括 起 来 ， 每 个 虚拟 参数 之 间 用 过 号 分 隔 。 通 过 虚拟 参数 1 人 
参数 n 可 以 依次 引用 集合 中 的 项 对 应 位 置 的 数值 。 


虽然 虚拟 参数 的 作用 和 参数 一 样 ， 但 是 作用 范围 不 一 样 ， 它 只 能 在 声明 它 的 索引 集 之 后 的 表达 式 中 使 用 ， 后 面 在 用 到 虚拟 参数 时 会 具体 介绍 。 例 如 ， 这 里 的 虚拟 参数 可 以 使 用 在 “: ”后 面 的 逻辑 表达 
式 中 ， 逻 辑 表达 式 主 要 用 来 对 新 索引 集中 的 项 进行 过 滤 和 选择 。 


下 面 一 段 代 码 演示 了 集合 INDXA 和 INDXB 通 过 “1 ”生成 了 一 个 新 的 集合 。 集 合 INDXA 中 的 项 为 1、 、4， 集 合 INDXB 中 的 项 为 <1，x> 和 <1，y> 


proc optmodel; 
set<num> INDXA=1http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/..4; 
set<num, str> INDXB=/<1, x><1, y>/; 
put ({a in INDXA,<b,c> in INDXB}); 

quit; 















































在 日 志 中 可 以 看 到 ，“{a in INDXA，<b，c>in INDXB}” 生 成 的 新 的 集合 如 下 : 
{<1, 1 ， 区 >， <2， 1, x'>， <3， L; 'x'>， <4， 1; x'>， <1, 1, 'y'>,， <2; 1 >， <3， 1 ， >， <4, ? YY>} 


在 PROC OPTMODEL 中 ， 有 一 类 特殊 的 基于 索引 集 的 表达 式 ， 叫 做 集成 (Aggregation Expression) ， 使 用 语法 如 下 : 











集成 算 子 {虚拟 参数 IN 索引 集 } 表达 式 ， 





这 类 集成 表达 式 在 计算 的 时 候 ， 将 使 虚拟 参数 一 一 遍历 索引 集中 的 项 ， 这 里 的 虚拟 参数 可 以 在 后 面 的 表达 式 中 使 用 。 常 见 的 此 类 表达 式 有 SUM 集 成 表达 式 、MAX 集 成 表达 式 、MIN 集 成 表达 式 、 
SETOF 集 成 表达 式 、UNION 集 成 表达 式 等 。 


SUM 集 成 表达 式 (SUM Aggregation Expression) 可 以 用 来 看 加 由 数值 、 决 策 变 量 、 隐 式 变 量 或 者 参数 组 成 表达 式 ， 在 表达 式 中 SUM 集 成 算 子 的 优先 级 高 于 “+” 算 子 和 “-” 算 子 ,但 是 低 
于 “0”、 指 数 算 子 、“*” 算 子 和 和“/” 算 子 。 示 例 代码 如 下 : 




















print (sum{k in lnttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/..24} k**2); 


代码 中 在 索引 集 {k in 1http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/OEBPS/Text/..2 活 中 声明 了 一 个 虚拟 参数 k。 当 索引 集中 的 项 
一 个 个 被 遍历 时 ， 索 引 集 中 的 项 将 被 一 一 赋值 给 虚拟 参数 ， 并 将 SUM 集 成 表达 式 中 的 表达 式 (k**2) 逐 项 晋 加 ， 因 此 该 行 代码 输出 的 结果 为 1**2、2**2、…、24**2 相 加 之 和 ， 即 4900。 注 意 ， 虚 拟 参 数 只 
能 在 索引 集 的 控制 范围 内 使 用 。 


UNION 集 成 表达 式 (UNION Aggregation Expression) 用 来 返回 由 表达 式 计算 出 来 的 数字 或 者 集合 的 并 集 。 示 例 代码 如 下 : 


proc optmodel; 
put (union{i in lnttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/..3} inttp://www.hzcourse.com/resource/readBook?pat 


quit; 


























在 日 志 中 ， 可 以 看 到 返回 的 数字 集合 为 {1，2，3，4，5，6}， 也 就 是 {1, 2, 3, 4}H2, 3, 4, 5M3, 4, 5, 0}。 


MAX 集 成 表达 式 、MIN 集 成 表达 式 和 SETOF 集 成 表达 式 将 在 第 22 章 中 具体 介绍 


21.2 基本 结构 


运用 PROC OPTMODEL 建 立 和 求解 优化 模型 的 基本 结构 如 下 : 





proc optomdel; 
/*declare sets and parameters*/ 
/*declare variables*/ 
/*declare constraints*/ 
/*declare objective*/ 
/*call solver*/ 
/*print solution*/ 

quit; 








其 中 主要 包含 以 下 6 个 要 素 : 

" 索引 集 和 参数 的 声明 

* 决策 变量 的 声明 

* 约束 条 件 的 声明 

* 目标 函数 的 声明 

“ 求解 器 的 调用 

数据 输出 
运用 PROC OPTMODEL 建 立 模 型 的 表达 方式 很 灵活 ， 例 如 ， 目 标 浮 数 的 声明 可 以 在 约束 条 件 的 声明 之 前 ， 也 可 以 在 其 之 后 ， 并 且 这 里 列 出 的 基本 要 素 并 不 是 每 一 个 模型 都 必须 有 的 。 
下 面 通过 一 个 示例 来 演示 运用 PROC OPTMODEL 建 模 的 基本 结构 。 


例 21.1: 某 面包 房 主要 制作 4 种 面包 和 糕点 ， 分 别 为 可 颂 、 吐 司 、 法 式 面 包 和 曲 奇 饼 干 ， 原 料 主要 为 面粉 、 奶 油 和 黄油 。 每 一 烤箱 面包 或 糕点 的 售 价 及 所 需 的 原材料 如 表 21.1 所 示 ， 面 粉 、 奶 油 和 黄油 的 
售 价 及 每 天 可 供 使 用 量 如 表 21.2 所 示 。 


SEE rr 


表 21.2 原料 成 本 和 供给 量 


假设 每 天 制作 的 面包 和 糕点 都 能 全 部 售 完 ， 那 么 对 于 各 种 面包 和 糕点 ， 每 天 分 别 需 要 制作 多 少 箱 才能 使 得 面包 房 总 的 盈利 最 大 ? 


对 于 这 个 问题 ， 根 据 第 20 章 中 例 20.1 的 分 析 方 法 来 看 ， 这 里 的 决策 变量 分 别 为 可 颂 、 吐 司 、 法 式 面 包 和 曲 奇 饼干 的 制作 量 ;目标 溯 数 是 利润 ， 利 润 = 收 入 -成 本 ， 优 化 目标 是 最 大 化 利润 浮 数 ; 约束 条 件 
为 原料 面粉 、 奶 油 和 黄油 的 供给 量 。 


对 照 以 上 6 个 要 素 ， 建 立 线性 规划 模型 的 最 简单 示例 代码 如 下 : 


proc optmodel; 
/*declare variables*/ 
Var Croissant>=0,Toast>=0,Baguette>=0,Cookie>=0; 
/*declare constraints*/ 
con Flour: 3*Croissant+3*Toast+4*Baguette+3.5*Cookie<=130; 
con Cream: 2*Croissant+1.5*Toast+0.5*Baguette+2*Cookie<=60; 
con Butter: 2*Croissant+Toast+Baguettet+Cookie<=40; 
/*declare objective*/ 
max Profit=440*Croissant+330*Toast+315*Baguette+385*Cookie 
-20x (3*Croissant+3*Toast+4*Baguette+3.5*Cookie) 
-40x (2*Croissant+1 .5*Toast+0.5*Baguette+2*Cookie) 
-35x (2*Croissant+Toast+Baguettet+Cookie); 
/*call solver*/ 
solve; 
expand; 
/*print solution*/ 
print Croissant Toast Baguette Cookie; 
quit; 













































































在 PROC OPTMODEL 中 ， 任 何 参 数 和 变量 在 使 用 变量 之 前 ， 都 必须 先 声明 。 这 里 为 了 增加 模型 的 可 读 性 ,使 用 Croissant、Toast、Baguette 和 Cookie 分 别 表示 可 颂 、 吐 司 、 法 式 面 包 和 曲 奇 饼干 的 制 
作 量 ， 即 问题 中 的 决策 变量 。 


EXPAND 语 句 用 来 在 结果 窗口 中 输出 线性 规划 模型 的 决策 变量 、 目 标 函 数 和 约束 条 件 。 使 用 EXPAND 语 句 的 基本 语法 如 下 : 











EXPAND 名 称 [/EXPAND 选 项 ] ， 


其 中 ， 名 称 可 以 是 决策 变量 名 称 、 目 标 国 数 名 称 、 隐 式 变量 名 称 或 者 约束 条 件 名 称 。 在 PROC OPTMODEL 中 ， 如 果 某 些 相 同 的 表达 式 在 同一 模型 中 多 次 出 现 ， 为 了 使 得 代码 简洁 ， 可 以 将 相同 的 表达 
式 定 义 成 隐 式 变量 ， 这 样 ， 在 这 些 表达 式 出 现 的 时 候 就 可 以 用 隐 式 变量 代替 了 ( 稍 后 将 介绍 声明 隐 式 变量 的 语法 ) 。 “/” 后 的 EXPAND 选 项 包括 如 下 4 种 (这 4 种 选项 可 以 同时 使 用 ， 也 可 以 单独 使 用 ) : 


` VAR 表 示 输 出 所 有 决策 变量 。 

` IMPVAR 表 示 输 出 所 有 隐 式 变量 的 表达 式 。 
OBJECTIVE 表 示 输 出 所 有 目标 函数 的 表达 式 ， 简 写 为 DBJ。 
. CONSTRAINT 表 示 输 出 所 有 约束 的 表达 式 ， 简 写 为 CON。 


在 EXPAND 语 句 中 ， 当 名 称 和 EXPAND 选 项 都 采用 默认 形式 时 ， 系 统 默认 输出 所 有 的 决策 变量 、 隐 式 变量 、 目 标 冰 数 和 约束 条 件 ， 作 用 等 同 于 下 面 的 代码 ; 


EXPAND /VAR IMPVAR OBJ CON; 




















例 21.1 中 所 建 模型 的 部 分 输出 如 图 21.1 所 示 。 


The SAS System 
The OPTMODEL Procedure 


sOlution summary 


Solver LP 


Algorithm Dual Simplex 
Objective Function Proft 
solution Status Optimal 
Dbjective Value 1215 
lterations 6 
Primal Infeasibility 0 
Dual Infeasibility 0 
Bound Infeasibility 0 


Var Croissant >= 0 
Var Toast >= 0 
Var Baguette >= 0 
Var CooKie >= 0 


Maximize Profit=200*Cookie + 180*Baguette + 175*Toast + 230*Croissant 
Constraint Flour: 3.5*Cookie + d4*Baguette + 3*Toast + 3*Croissant <= 130 
Constraint Cream: 2*Cookie + 0.5*Baguette + 1.5*Toast + 2*Croissant <= 60 
Constraint Butter: Cookie + Baguette + Toast + 2*CGCroissant <= 40 





Croissant Toast Baguette Cookie 
0 25 5 0 


图 21.1 例 21.1 的 部 分 输出 内 容 
因为 使 用 了 EXPAND 语 句 ， 图 21.1 的 中 间 部 分 输出 了 模型 的 决策 变量 、 目 标 函数 和 约束 条 件 。 


在 上 面 的 代码 中 ， 由 于 表达 式 3*Croissant+3*Toast+4*Baguette+3.5*Cookie、2*Croissant+1.5*Toast+0.5*Baguette+2*Cookie、2*Croissant+Toast+Baguette+Cookie 都 分 别 出 现 过 两 次 ,为 
了 实现 程序 的 简洁 可 读 性 ， 考 虑 使 用 隐 式 变量 代 蔡 这 3 个 表达 式 。 


使 用 IMPVAR 语 句 声明 隐 式 变量 的 基本 语法 如 下 : 








IMPVAR 隐 式 变量 名 称 = 表达 式 ; 











隐 式 变量 的 命名 规则 和 决策 变量 一 样 。 


在 例 21.1 中 ， 运 用 隐 式 变量 代 蔡 重复 出 现 的 表达 式 。 示 例 代 码 如 下 : 





proc optmodel; 
/*declare variables*/ 
Var Croissant>=0,Toast>=0,Baguette>=0,Cookie>=0; 
impvar Kilos = 3*Croissant+3*Toast+4*Baguette+3.5*Cookie; 
impvar Bottles=2*Croissant+1.5*Toast+0.5*Baguette+2*Cookie; 
impvar Bags=2*Croissant+Toast+Baguette+Cookie; 
/*declare constraints*/ 
con Flour: Kilos<=130,Cream: Bottles<=60,Butter: Bags<=40; 
/*declare objective*/ 
max Profit=440*Croissant+330*Toast+315*Baguette+385*Cookie 

-20*Kilos-40*Bottles-35*Bags; 






























































solve; 

expand/impvar; 

/*print solution*/ 

print Croissant Toast Baguette Cookie; 
quit; 





代码 中 运用 IMPVAR 语 句 声明 了 3 个 隐 式 变量 Kilos、Bottles 和 Bags， 并 在 约束 条 件 和 目标 函数 中 ， 分 别 用 这 3 个 隐 式 变量 代替 了 原来 的 表达 式 ， 最 后 运用 EXPAND 语 句 输出 了 隐 式 变量 的 表达 式 ， 如 图 
21.2 所 示 。 


lmpvar Kilos = 3.9*CooKkie + d4*Baguette + 3*Toast + 3*Croilissant 
1mpvar Bottles 三 2*COOKie + O00.5*Baguette + 1.5*10ast + 2*Croissant 


Impvar Bags = Cookle + Baguette + Toast + 2e*Crolssant 





21.3” 建 本 个 型 
接 下 来 将 一 一 介绍 PROC OPTMODEL 中 6 个 要 素 的 基本 使 用 方法 。 
21.3.1 参数 的 声明 
在 PROC OPTMODEL 中 ， 参 数 (包含 参数 数组 ) 在 使 用 前 都 必须 进行 声明 。 


1. 数 值 型 参数 的 声明 


NUMBER 或 者 NUM 语 名 都 可 以 用 来 声明 数值 型 参数 ， 如 : 





num N; 
num Pi=constant ('pi'); 
num M{lhttp://www.hzcourse.com/resource/read 




















Book?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/..N,1hnttp://www.hzcourse.com/resource/readBook?path=/openresource 





其 中 : 
. 第 一 行 代码 声明 一 个 名 称 为 N 的 数值 型 参数 。 
“ 第 二 行 代码 声明 了 一 个 名 称 为 Pi 的 数值 型 参数 ， 并 且 给 该 参数 赋值 为 常数 。 


. 第 三 行 代码 声明 了 一 个 名 称 为 M 的 二 维 的 NXN 的 参数 数组 ， 并 且 给 该 参数 数组 中 每 个 位 置 的 值 都 赋予 初 值 0。“{}” 是 一 个 集合 表达 式 ， 返 回 一 个 集 
合 ; “1http://www.hzcourse.com/resoutce/readBook?path=/openresources/teach_ebook/uncompressed/15092/OEBPS/Text/..N” 是 一 个 范围 表达 式 ， 表 示 返 回 从 1 到 NN 的 所 有 数 
字 ，“{1http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15092/OEBPS/Text/..N, 1http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach_ebook/uncompressed/15092/OEBPS/Text/..N}” 合 起 来 表示 一 个 组 成 项 为 二 元 组 的 索引 集 {1http://www.hzcourse.com/resoutce/readBook? 


path=/openresources/teach_ebook/uncompressed/15092/OEBPS/Text/..N, lhttp://www.hzcourse.com/resoutce/readBook?path=/openresoutces/teach_ebook/uncomptressed/15092/OEBPS/Text/..N}， 其 中 的 项 分 


别 为 <1， 1>， <1， 2>， 本 <1， N>， <2, 1>， 站 
2. 字 符 型 参数 的 声明 
STRING 或 者 STR 语句 可 以 用 来 声明 字符 型 参数 ， 如 : 


str Name; 
str Day{1lhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/01 


str Type{Resource}; 








EBPS/Text/..7}=[Mon Tue Wed Thu Fri Sat Sun]; 














其 中 : 

.第 一 行 代码 声明 了 一 个 名 称 为 Name 的 字符 型 参数 。 

* 第 二 行 代码 声明 了 一 个 名 称 为 Day 的 字符 型 参数 数组 ， 等 于 号 后 面 使 用 “上 ”表示 为 数组 赋值 ， 初 值 为 Mon、Tue、Wed、Thu、Fri、Sat 和 Sun。 比 如 ， 标 识 表达 式 Day[5] 就 表示 该 参数 数组 中 的 索引 为 5 
的 参数 值 ， 这 里 即 为 Fri。 


. 第 三 行 代码 声明 了 一 个 名 称 为 Type 的 字符 型 参数 数组 ， 参 数 数组 中 各 个 元 素 的 标识 来 自 索 引 集 Resource。 


3. 集 合 的 声明 
SET 语句 用 来 声明 集合 ， 一 个 SET 语句 可 以 同时 声明 多 个 集合 ， 每 个 集合 中 间 用 过 号 分 隔 。 集 合 中 的 项 可 以 是 一 个 一 个 的 数值 ， 或 者 是 一 个 一 个 的 字符 串 ， 也 可 以 用 数值 或 者 字符 串 共同 表示 二 元 组 或 者 


多 元 组 。 常 见 的 几 种 集合 声明 代码 如 下 : 

















<num> DOW=1hnttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/..7; 
<str> COLOR=/red orange yellow green blue/; 

<str,num> PARTS=/<R, 1><C, 2>/;} 

<str,str> ARCS; 























Cn 
(0 
CT CT CT qd 











其 中 : 


* 第 一 行 代码 声明 了 一 个 名 称 为 DOW 的 集合 ， 中 的 关键 字 num 指 定 了 集合 中 项 的 取 值 类 型 为 数值 型 ， 等 号 后 面 为 该 集合 赋予 初 值 、2、3、4、5、6、7。PROC OPTMODEL 中 默认 的 数据 类 型 为 NUM。 


` 第 二 行 代码 定 声明 了 一 个 名 称 为 COLOR 的 集合 ， 中 的 关键 字 stt 表 示 该 集合 中 每 个 项 的 取 值 类 型 为 字符 型 ，“//” 表 示 为 索引 集 赋值 ， 该 索引 集 的 初 值 为 rcd、orange、yellow、green 和 blue。 需 要 注意 的 
是 ， 使 用 “//” 为 集合 赋 字 符 型 值 时 ， 如 果 字 符 串 符合 SAS 的 变量 名 称 规则 ， 则 可 以 不 用 引号 引起 来 ， 如 上 面 的 COLOR=/ted orange yellow green blue/， 但 是 ， 如 果 字 符 串 是 以 数字 开头 或 者 中 间 含 有 空格 、 


标点 等 特殊 符号 ， 则 字符 串 需 要 用 引号 引起 来 。 


. 第 三 行 代码 声明 了 一 个 名 称 为 PARTS 的 集合 ， 表 示 集 合 中 每 个 项 的 取 值 为 一 个 二 元 组 ， 二 元 组 中 第 一 个 位 置 的 数据 是 字符 型 ， 第 二 个 位 置 的 数据 是 数值 型 ， 集 合 PARTS 中 的 项 为 和 。 


" 第 四 行 代码 声明 了 一 个 名 称 为 ARCS 的 二 元 组 ， 该 二 元 组 中 两 个 位 置 的 数组 都 是 字符 型 。 


使 用 SET 语句 可 以 声明 项 为 多 元 组 的 集合 ， 语 法 如 下 : 








Set <typel,type2,http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/...,typen> INDEXING; 


























其 中 type1、type2、http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/OEBPS/Text/...、typen 代 表 关 键 字 num 或 者 str， 并 且 互 不 影 
响 。 默 认 情 况 下 ， 集 合 中 项 的 取 值 类 型 为 数值 型 ， 如 果 在 声明 集合 的 同时 对 集合 赋 初 值 ， 那 么 系统 会 根据 初 值 的 类 型 自动 辨别 集合 中 该 项 的 取 值 类 型 ， 此 时 就 可 以 省 略 类 型 声明 <num>、<str> 或 者 
<num，str> 等 。 注 意 ， 当 集合 中 的 项 为 多 元 组 时 ， 若 使 用 “// ”表达 式 为 集合 赋值 ， 每 一 项 都 需要 用 尖 括 号 < > 括 起 来 。 


加 注意 ”在 PROC OPTMODEL 中 ，SET 语 名 的 使 用 方法 和 DATA 步 中 SET 语句 完全 不 一 样 ， 请 不 要 将 其 相互 混淆 。 


那么 ， 对 于 例 21.1 中 的 问题 ， 则 可 以 定义 索引 集 PRODUCT 和 RESOURCE， 并 且 根 据 索 引 集 定义 参数 数组 Selling_Price、Cost、Available 和 Requirement。 示 例 代码 如 下 : 










































































set PRODUCT=/croissant toast baguette cookie/; /*line 1*/ 
num Selling Price{PRODUCT}=[440 330 315 385]; /*line 2*/ 
set RESOURCE=/flour cream butter/; /*line 3*/ 
num Cost{RESOURCE}=[20 40 35]; /*line 4*/ 
num Available{RESOURCE}=[130 60 40]; /*line 5*/ 
num Requirement {PRODUCT, RESOURCE}=[3 2 之 

3 下 55 下 

4 0.5 1 

3:5 2 1]; /*line 6*/ 








其 中 : 
. 第 一 行 代码 声明 了 索引 集 PRODUCT， 并 赋予 了 初 值 ， 因 为 这 里 直接 赋 初 值 ， 所 以 索引 集中 项 的 取 值 类 型 声明 可 以 省 略 。 


“ 第 二 行 代码 基于 已 经 声明 的 索引 集 PRODUCT， 上 声明 了 参数 数组 Selling_Ptice， 根 据 索 引 集 PRODUCT 中 项 的 顺序 ctoissant、toast、baguette 和 cookie，Selling_Price[ctoissantj、Selling_Ptice[toas 匡 、 
Selling_Price[baguettel] 和 Selling_Price[cookie] 的 取 值 分 别 为 440、330、315 和 385。 


. 第 三 行 代码 声明 了 索引 集 RESOURCE ， 并 赋予 初 值 。 
. 第 四 行 和 第 五 行 代码 分 别 声明 了 两 个 一 维 数 组 Cost 和 Available， 并 赋予 初 值 。 


第 六 行 代码 基于 索引 集 PRODUCT 和 RESOURCE 声 明了 一 个 二 维 数组 Requirement，PRODUCT 为 第 一 个 维度 ( 行 ) ，RESOURCE 为 第 二 维度 ( 列 ) 。 其 实 ， 在 赋值 时 所 有 的 数字 都 可 以 在 一 行 中 输 
入 ， 这 里 分 成 4 行 是 为 了 增加 代码 可 读 性 。 


例 21.2: 某 银 行 拟 从 北部 、 东 部 、 南 部 和 西部 4 个 地 区 分 别 抽取 一 部 分 各 个 年 龄 段 的 客户 进行 促销 活动 。 每 个 地 区 每 个 年 龄 段 欲 抽取 的 客户 数量 如 表 21.3 所 示 。 现 要 将 下 列 数 据 导 入 PROC OPTMODEL 


表 21.3 ” 某 银 行 分 地 区 分 年 龄 段 的 目标 客户 数量 


18-25 岁 26-35 岁 36-45 岁 56 岁 及 以 上 
北部 3200 800 800 
东部 2250 900 900 
南部 5250 8750 3500 3500 
西部 1200 3200 800 800 


这 里 可 以 定义 两 个 索引 集 AREA 和 AGE， 基 于 这 两 个 索引 集 定义 一 个 参数 数组 来 存储 分 地 区 分 年 龄 段 的 目标 客户 数量 。 示 例 代 码 如 下 : 


proc optmodel; 
set AREA=/ ' 北 部 '' 东 部 ' ' 南 部 ' ' 西 部 '/; 
set AGE=/'18-25 岁 ''26-35 岁 ''36-45 岁 ''46-55 岁 ''56 岁 及 以 上 '/; 
num Target {ARFA,AGE}=[1200 3200 2000 800 800 

1350 3600 2250 900 900 

5250 1400 8750 3500 3500 

1200 3200 2000 800 800]; 















































print Target; 
quit; 


给 索引 集 AREA 和 AGE 赋 初 值 时 ， 每 个 字符 串 都 要 用 引号 引起 来 ， 这 是 因为 这 里 使 用 了 中 文字 符 ， 不 符合 SAs 的 命名 规则 。 在 表 21.4 中 ， 每 一 行 代表 相同 的 地 区 ， 不 同 的 列 代表 不 同 的 年 龄 段 ， 为 了 和 该 
表 的 表现 形式 统一 ， 在 声明 二 维 数组 Target 时 ， 用 AREA 作 为 第 一 维度 ( 行 ) ， 用 AGE 作为 第 二 维度 ( 列 ) 。 在 代码 的 最 后 运用 PRINT 语 句 将 参数 Target 输 出 到 “结果 ”窗口 ， 如 图 21.3 所 示 。 





图 21.3 ” 例 21.2 输 出 内 容 


21.3.2 ”变量 的 声明 


1. 决 策 变量 的 声明 


声明 决策 变量 的 VAR 语 句 的 基本 语法 和 声明 参数 数组 的 语法 类 似 ， 如 下 : 








VAR VAR 声 明 [，VAR 声 明 ，..., VAR 声明 ]; 











一 个 VAR 语 句 中 可 以 有 多 个 VAR 声 明 ， 由 逗号 隔 开 。 每 个 VAR 声 明 由 3 部 分 组 成 ， 一 部 分 是 决策 变量 名 称 ， 一 部 分 是 索引 集 ， 一 部 分 是 VAR 选 项 。 语 法 如 下 : 





VAR 名 称 [{ 索 引 集 }] [VAR 选 项 ] ; 





可 用 的 VAR 选 项 有 如 下 5 种 。 

. >= 表 达 式 : 表示 为 决策 变量 的 取 值 设 定 一 个 下 界 ， 黑 认 情 况 下 ， 决 策 变量 的 下 界 为 -ce。 
. <= 表 达 式 : 表示 为 决策 变量 的 取 值 设 定 一 个 上 界 ， 黑 认 情 况 下 ， 决 策 变 量 的 上 界 为 ce。 
“ INIT 表 达 式 : 表示 为 决策 变量 设 定 一 个 初始 值 ， 黑 认 情 况 下 ， 初 始 值 为 0。 
.INTEGER: 表示 决策 变量 的 取 值 只 能 取 整 数 。 

. BINARY: 表示 决策 变量 的 取 值 只 能 是 0 或 者 1。 


下 面 一 段 代码 声明 了 两 个 决策 变量 X 和 Y， 并 为 变量 X 赋 上 了 初始 值 0.5， 同 时 设 定 变量 X 和 Y 的 上 下 界 分 别 为 0 和 1。 


Var X init 0.5 >=0 <=1，Y >=0 <=1;} 
在 例 21.1 中 ， 可 以 运用 已 经 定义 的 索引 集 来 声明 决策 变量 。 代 码 如 下 : 


Var X{PRODUCT}>=0; 





这 里 的 决策 变量 X 其 实 是 一 个 决策 变量 组 ， 根 据 索 引 集 PRODUCT 中 的 项 ， 我 们 有 不 同 产 品 的 决策 变量 ， 如 X[croissant]、X[toast]、X[baguette] 和 X[cookie]。 和 | 参数、 索引 集 一 样 ， 决 策 变量 也 必须 先 


声明 后 使 用 。 


2. 隐 式 变 量 的 声明 
前 面 介 绍 了 声明 隐 式 变量 的 简单 语法 ， 和 决策 变量 一 样 ， 隐 式 变量 的 声明 也 可 以 基于 索引 集 。 基 本 语法 如 下 : 








IMPVAR 隐 式 变量 名 称 [{ 索 引 集 }] = 表达 式 ; 














其 中 ， 右 边 表达 式 可 以 包含 决策 变量 、 常 数 、 参 数 或 者 其 他 隐 式 变量 。 在 索引 集中 声明 的 虚拟 参数 也 可 以 在 右边 的 表达 式 (包括 标识 表达 式 ) 中 使 用 。 


在 例 21.1 中 ， 声 明 隐 式 变量 Amount Used{RESOURCE}。 代 码 如 下 : 














impvar Amount Used{r in RESOURCE}=sum{p in PRODUCT}Requirement[p,r]*X[p]; 


IMPAVR 语 句 声明 了 一 个 索引 集 为 {RESOURCE} 的 隐 式 变量 组 。 当 RESOURCE 中 的 项 一 个 个 被 遍历 时 ，RESOURCE 中 的 项 将 一 个 个 被 赋 给 虚拟 参数 r，r 可 以 使 用 在 右边 参数 数组 Required 的 标识 表达 式 
上 面 这 段 代码 的 作用 和 下 面 的 代码 一 样 ， 相 当 于 定义 了 3 个 隐 式 变量 。 


于 











Impvar Amount Used['flour']=sum{p in PRODUCT}Requirement[p,'flour']*X[p]; 
Impvar Amount Usedl['cream']=sum{p in PRODUCT}Requirement[p,'cream']*X[p]; 
Impvar Amount Usedl['butter']=sum{p in PRODUCT}Requirement[p,'butter']*X[p]; 

















如 此 ， 在 例 21.1 中 声明 的 3 个 隐 式 变量 Kilos、Bottles 和 Bags 就 变 成 了 这 里 的 Amount Used[flour]、Amount Used['cream'] 和 Amount Used['Bags']。 


2 


一 


.3.3 ”目标 函数 的 声明 


进行 目标 立 数 声明 的 基本 语法 如 下 : 














maximize|max 目 标 函 数 名 称 [ {索引 集 }]= 表 达 式 ; 
minimizelrmin 目 标 函 数 名 称 [{ 索 引 集 }] = 表达 式 ， 











MAXIMIZEIMAX 和 MINIMIZEIMIN 声 明了 优化 方向 和 目标 遂 数 。 目 标 函 数 名 称 不 能 和 变量 名 称 或 者 参数 名 称 重复 。 在 一 个 PROC OPTMODEL 中 ， 可 以 声明 多 个 目标 水 数 ， 但 是 求解 器 每 次 只 能 求解 
含有 一 个 目标 浮 数 的 优化 问题 。 索 引 集 中 声明 的 虚拟 变量 在 等 号 右边 表达 式 中 可 以 使 用 。 


21.3.4 约束 条 件 的 声明 


进行 约束 条 件 声明 的 基本 语法 如 下 : 





CONSTRAINT 约束 条 件 声明 1[,… 约束 条 件 声明 n] ; 





这 里 ，CONSTRAINT 可 以 简写 为 CON。 一 个 CONSTRAINT 语 句 可 以 声明 多 个 约束 条 件 ， 每 个 约束 条 件 之 间 用 逗号 分 隔 。 


每 个 约束 条 件 声明 由 3 部 分 组 成 ， 一 部 分 是 约束 条 件 名 称 ， 一 部 分 是 索引 集 ， 一 部 分 是 表达 式 。 约 束 条 件 声明 有 如 下 3 种 形式 : 











CONSTRAINT [约束 条 件 名 称 [{ 索 引 集 }]: ] 表 达 式 = 表达 式 ; 
CONSTRAINT [约束 条 件 名 称 [{ 索 引 集 }]: ] 表 达 式 relation 表 达 式 ，; 
CONSTRAINT [约束 条 件 名 称 [ {索引 集 }]: ] 边 界 1 relation 表达 式 relation 边界 2; 


























这 里 的 relation 指 的 是 > = 或 者 <=， 在 上 面 的 第 三 个 表示 范围 的 约束 条 件 中 ， 两 个 relation 必 须 是 同方 向 的 。 如 果 在 进行 约束 条 件 声明 时 ， 没 有 为 约束 条 件 命名 ， 默 认 情况 下 ， 系 统 将 根据 约束 条 件 出 现 
的 顺序 依次 将 其 命名 为 ACON _[n]。 


在 例 21.1 中 ， 可 以 将 约束 条 件 Flour、Cream 和 Butter 改 写成 如 下 形式 : 











con Usage{r in RESOURCE}: Amount Used[r]<=Availablel[r]; 





如 此 ， 原 来 的 约束 条 件 flour、cream 和 butter 依 次 变 成 了 Usage['Flour']、Usage['Cream'] 和 Usage['Butter']。 

四 注意 ”为 了 增加 PROC OPTMODEL 程 序 的 可 读 性 ， 在 建 模 时 有 如 下 约定 : 

. 建议 在 使 用 PROC OPTMODEL 声 明 索 引 集 名 称 和 使 用 索引 集 时 ， 将 索引 集 名 称 全 部 大 写 ， 如 PRODUCT、RESOURCE。 
` 决策 变量 名 称 、 隐 式 变量 名 称 和 约束 条 件 名 称 的 首 字 母 大 写 。 


: 虚拟 参数 小 写 。 


21.3.5 ”求解 器 的 调用 


运用 SOLVE 语 句 可 以 调用 PROC OPTMODEL 中 的 求解 器 ， 基 本 语法 如 下 : 





SOLVE [OBJECTIVE 























OBJ 目标 函数 名 称 ] [WITH 求解 器 类 别 ] [/SOLVER= 求 解 器 关键 字 ]; 








这 里 关键 字 OBJECTIVE 或 者 OBJ 用 来 指定 目标 遂 数 名 称 ， 如 果 不 指定 目标 函数 名 称 ， 系 统 默 认 将 最 近 声 明 的 目标 函数 作为 当前 问题 的 优化 目标 。 
关键 字 WITH 用 来 指定 求解 器 类 别 ， 在 PROC OPTMODEL 中 可 以 使 用 的 求解 器 类 别 如 下 。 

` LP: 默认 用 来 求解 线性 规划 问题 ， 默 认 算 法 为 对 偶 单纯 形 法 。 

* MILP: 默认 用 来 求解 混合 整数 线性 规划 问题 ， 默 认 算 法 为 Branch and Cut 方 法 。 

QP: 默认 用 来 求解 二 次 线性 规划 问题 ， 默 认 算 法 为 内 点 法 。 

: NLP: 默认 用 来 求解 一 般 的 非 线 性 规划 问题 ， 上 默认 算法 为 内 点 法 。 
如 果 不 使 用 关键 字 WITH 来 指定 求解 器 类 别 ， 系 统 将 根据 目标 函数 、 决 策 变 量 和 约束 条 件 自动 判别 优化 问题 的 类 型 ， 选 择 默认 的 求解 器 类 别 。 


对 于 各 类 优化 问题 ， 选 项 SOLVER= 可 以 用 来 指定 算法 ， 用 来 求解 LP 问 题 的 算法 有 单纯 形 法 、 对 偶 单 纯 形 法 、 内 点 法 和 网 络 单纯 形 法 ， 对 应 的 求解 器 关键 字 为 Ps、DSs、IP 和 NS。 有 兴趣 的 读者 可 以 参考 
SAS 帮 助 文档 查看 用 于 求解 其 他 问题 的 算法 。 


21.3.6 ”数据 输出 


PROC OPTMODEL 中 提供 了 两 种 语句 用 于 输出 带 有 格式 的 数据 : PRINT 语 句 和 PUT 语句 。 


1.PRINT 语 名 


PRINT 语 句 以 表格 的 形式 在 “结果 ”窗口 输出 带 有 格式 的 字符 型 数据 或 数值 型 数据 。 以 下 代码 展示 了 PRINT 语 句 常 见 的 几 种 用 法 : 


proc optmodel; 
num x = 4.3; 
















































































var y{j in lhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/..4} init j*3.68; 
Drint ys 
print (x * .265) dollar6.2; /* (expression) [format] */ 
print {i in 2http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/..4} y; /*{index-set} identifier-expression */ 
print {i in lhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/..3} (i + i*.2345692) best7.;/* {index-set} (expression) 
print "Line 1 /* string */ 
quit; 
其 中 : 


. 第 一 个 PRINT 语 句 输出 了 灾 量 y 的 初始 值 ， 因 为 y 是 一 个 数组 ， 所 以 默认 输出 了 数组 中 的 所 有 值 ， 如 图 21.4 所 示 。 

















图 21.4 PRINT 语句 输出 数组 


. 第 二 个 PRINT 语 句 输 出 带 格式 的 数据 ， 因 为 输出 内 容 是 一 个 表达 式 ， 必 须 用 () 将 表达 式 括 起 来 。 第 二 个 PRINT 语 句 的 输出 如 图 21.5 所 示 。 





图 21.5 PRINT 语句 输出 带 格 式 的 表达 式 结果 


“ 第 三 个 PRINT 语 句 输 出 由 索引 集 控制 的 数组 数据 ， 声 明 变 量 y 时 索引 集 为 1http://www.hzcoutrse.com/resoutce/readBook?path=/openresoutces/teach_ebook/uncompressed/15092/OEBPS/Text/..4, 但 是 


PRINT 语 句 使 用 了 {iin 2http://www.hzcourse.com/resource/rteadBook?path=/openresources/teach_ebook/uncompressed/15092/OEBPS/Text/..4}， 故 只 输出 索引 集中 项 为 2 到 4 的 变量 值 。 输 出 结果 如 图 21.6 所 示 。 





图 21.6” PRINT 语句 输出 由 索引 集 控 制 的 数组 数据 


. 第 四 个 PRINT 语 名 输出 了 由 索引 和 集 控制 的 表达 式 结果 ， 在 代码 中 表达 式 必须 用 () 括 起 来 ， 并 在 表达 式 后 面 指定 了 输出 数据 的 格式 。 第 五 个 PRINT 语 句 输出 了 一 个 字符 囊 。 输 出 结果 如 图 21.7 所 示 。 








图 21.7 ”PRINT 语句 输出 由 索引 集 控制 的 表达 式 和 字符 事 


2.PUT 语 名 


PROC OPTMODEL 中 的 PUT 语 句 在 语法 上 和 DATA 步 中 类 似 ， 可 以 将 带 有 格式 的 优化 结果 输出 到 日 志 或 者 其 他 外 部 文件 中 。 在 PROC OPTMODEL 中 ，PUT 语 句 最 常见 的 用 途 是 调试 程序 或 者 快速 检查 
数据 。 以 下 代码 展示 了 PUT 语句 的 几 种 常见 用 法 : 





proc optmodel; 
umber a=1.7, b=2.8; 


t 'Value A: ' a 8.1 430'Value B: ' b 8.; 
tring str='Ratio (A/B) is:'; 








t str (a/b); 
t =; 


e 
园 
Ut a= b=; 
| 
U 
U 








丰台 


PUT 语句 的 结果 输出 在 日 志 中 ， 日 志 的 截图 如 图 21.8 所 示 。 


212 proc Dptmode 1 ; 

此 1 二 number a=1.7, 

21d4 set Ss={[a,b}:; 

15 put a b: 

1.7 2.8 

216 put a= 

a=1.7 b=2.8 

217 put Value A: ”局 日 .1 B30 Value 日 ， 
Yalue A: li Value 日 : 


21 str ing str= Ratio (A/B) ie: 

219 put str (ar/b ); 

hatio (A/BY) is: 0.6071429571 

20 put 至 =， 

s={1.7,2.8}] 

221 quit; | 

NOTE: PROCEDURE OPTMODEL used (Total process 


"eal time jd .00 seconds 
CDU time 0 .01 seconds 


图 21.8 ”使 用 PUT 语 句 快速 查看 数据 示例 


* 第 一 个 PUT 语 句 直接 输出 了 a 和 b 的 值 ， 数 字 的 默认 格式 为 BEST12.， 数 字 之 间 用 空格 隔 开 ， 每 个 数字 的 前 面 或 后 面 都 没有 多 余 的 空格 。 


* 第 二 个 PUT 语 句 使 用 了 = 指定 在 输出 数据 的 同时 输出 参数 (或 者 变量 ) 的 名 称 。 





. 第 三 个 PUT 语句 演示 了 带 格式 的 输出 ，@ 指 定 了 固定 的 列 ，8.1 和 8. 指 定 了 输出 数字 的 格式 ， 并 且 格式 8. 使 得 参数 b 的 取 值 2.8 四 合 五 入 为 3。PUT 语 句 的 这 种 用 法 主要 用 于 制作 报表 。 





` 第 四 个 PUT 语 句 用 于 输出 字符 囊 和 表达 式 结果 。 


注意 


例 21.3: 将 例 21.1 中 的 线性 规划 问题 用 索引 集 的 方式 进行 决策 变量 、 目 标 函 数 、 


示例 代码 


个 PUT 语句 用 于 输出 一 个 集合 和 集合 的 名 称 。 


PRINT 语 名 不 可 以 输出 集合 ; PUT 语句 可 以 输出 集合 。 


如 下 : 


proc optmodel; 
/*declare sets and parameters*/ 
set PRODUCT=/croissant toast baguette cookie/; 
num Selling Price{PRODUCT}=[440330315385]; 
set RESOURCE=/flour cream butter/; 





num Cost{RESOURCE}=[204035]; 



































num Available{RESOURCE}=[1306040]; 





num Requirement {PRODUCT, RESOURCE }=[ 



































1]; 


/*declare variables*/ 
var X{PRODUCT}>=0; /*decision variables*/ 
impvar Amount Used{r in RESOURCE}=sum{p in PRODUCT}Requirement[p,r]*X[p]; 


/*implicit variables*/ 

















impvar Revenue=sum{p in PRODUCT}Selling Price[lp]*X[pl]; 











impvar Costing=sum{r in RESOURCE}Cost[r]*Amount Used[r]; 


/*declare constraints*/ 














con Usage{r in RESOURCE}: Amount Used[r]<=Availablel[r]; 








/*declare objective*/ 

















max Profit=Revenue-Costing; 

expand / var impvar; 

expangd Profit; 

expand Usage; 

/*call Solver*/ 

solve ob]j Profit with lp/solver=ds; 
/*print Solution*/ 











print {p in PRODUCT: X[p]>0} XxX; 


约束 条 件 等 声明 ， 并 用 EXPAND 语 句 将 变量 目标 浮 数 和 约束 条 件 展示 出 来 ， 然 后 再 求解 。 





quit; 
代码 中 的 内 容 已 经 分 别 在 前 面 介 绍 相关 声明 时 解释 过 了 ， 这 里 不 乾 述 。 需 要 指出 的 是 ， 在 PRINT 语 句 的 索引 集中 ， 使 用 了 “: X[p]>0” 对 索引 集 PRODUCT 进 行 筛选 ， 只 输出 决策 变量 组 中 X[p] > 0 时 X 
的 取 值 。 


接 下 来 ， 查 看 输出 结果 ， 第 一 部 分 内 容 是 EXPAND 语 句 输出 的 决策 变量 和 隐 式 变量 的 表达 式 、 目 标 函 数 和 约束 条 件 ， 如 图 21.9 所 示 。 在 隐 式 变量 Amount_Use、Revenue 和 Costing 的 表达 式 中 ， 可 以 


观察 到 参数 已 


经 分 别 用 数字 蔡 代 了 ， 但 是 隐 式 变量 Amount Used[flourl]、Amount Used[cream] 和 Amount Used[butter] 仍 然 保留 在 表达 式 中 。 


Vanr X[croissant] >= 0 

Var Xltoast] >= 0 

Var x[baguette] >= 0 

Var X[cookie] >= 0 

lmpvar Amount Used[flour] = 3*X[croissant] + 3*X[toast] + 4*Xx[baguette] + 3.5*X[cookie] 
Impvar Amount Used[cream] = 2*X[croissant] + 1.5*X[toast] + 0.5*X[baguette] + 2*X[cookie] 
Impvar Amount Used[butter] = 2*X[croiassant] + X[toast] + Xlbaguette] + X[lcookie] 

lmpvar Revenue = 440*x[croissant] + 330*X[toast] + 315*X[baguette] + 385*X[cookle] 

lmpvar Costing = 20*Amount Used[flour] + 40*Amount Usedlcream] + 35*Amount Used[butter] 





Maximize Profit=- Costing + Revenue 


Constraint Usage[flour]: Amount Used[flour] <= 130 
Constraint Usage[cream]: Amount Used[cream] <= 60 
Constraint Usage[butter]: Amount Used[butter] <= 40 


图 21.9 ” 例 21.3EXAPND 语 句 输 出 结果 


求解 的 结果 输出 如 图 21.10 所 示 。 和 例 21.1 中 输出 的 最 优 目标 值 相 等 ， 并 且 这 里 只 输出 了 产量 大 于 0 的 baguetter、cookie 和 toast 的 产量 。 





| El r : z 
olution Summary 
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Dual Simplex 











Dual Infeasibility 
Bound Infeasibility 0 














图 21.10” 例 21.3 输 出 优化 结果 


3. 后 缀 (SUFFIXES) 


在 PROC OPTMODEL 中 ， 若 在 标识 表达 式 后 面 使 用 后 缀 ， 可 以 用 来 取得 或 者 修改 求解 器 中 的 一 部 分 设置 和 结果 。 使 用 语法 如 下 : 





标识 表达 式 .后 级 名 称 


后 缀 主要 用 在 以 下 3 种 途径 中 : 
“ 用 在 PRINT 语 名 和 PUT 语句 中 进行 程序 调试 和 结果 展示 。 
. 用 在 各 式 各 样 的 表达 式 中 参与 计算 。 
` 通过 CREATE DATA 语 名 输出 到 数据 集中 。 
在 PROC OPTMODEL 中 ， 决 策 变量 、 隐 式 变量 、 约 束 条 件 、 目 标 函 数 等 不 同 对 象 可 使 用 的 后 缀 是 不 一 样 的 ， 例 如 ， 不 可 以 使 用 后 级.INIT 对 一 个 目标 立 数 赋 初 值 ， 虚 拟 参 数 后 面 不 可 以 使 用 任何 后 缀 。 
表 21.4 中 包含 了 不 同 对 象 可 以 使 用 的 后 缀 名 称 及 其 作用 描述 ， 并 指出 了 哪些 后 缀 的 数据 可 以 在 PROC OPTMODEL 中 进行 修改 。 


表 21.4 ”后 组 列表 


对 。 象 “| 后缀 名 称 | 是 否 可 修改 _ 描述 

决策 变量 | 初始 值 ，LP 求解 器 在 求解 过 程 中 忽略 初始 值 

决策 变量 足 取 值 下 界 

决策 变量 由 取 值 上 界 

决策 变量 I 生生 当前 最 优 解 下 的 取 值 

决策 变量 | REDUCED COST 

决策 变量 决策 变量 在 求解 器 中 的 状态 信息 ， 取 值 为 B, ，U，F， 1 


对 和 象 是 否 可 修改 描 
决策 变量 “| LABEL | 决策 变量 的 标签 

隐 式 变量 SOE 当前 最 优 解 下 的 取 值 
目标 函数 SOL 当前 最 优 解 下 的 最 优 值 


目标 限 数 
约束 条 件 
约束 条 件 
约束 条 件 
约束 条 件 
约束 条 件 


约束 条 件 


.LABEL 
.BODY 


目标 函数 的 标签 


凶 


对 


约束 条 件 的 下 界 
约束 条 件 的 上 界 

约束 条 件 的 影子 价格 
约束 条 人 


约束 条 件 的 标签 


.DUAL 
.SIATUS 
.LABEL 


f 
/ 
人 


1 
一 pe \ sm | he | 到 > 一 | 一 \ ~ | 


在 求解 希 中 的 状态 


AN 
Xt 


当前 最 优 解 下 约束 条 件 的 取 值 


信息 


目前 ， 只 有 在 LP 求 解 器 中 可 以 使 用 .STATUS 后 缀 修改 决策 变量 或 约束 条 件 的 状态 信息 。 一 般 情 况 下 ， 约 束 条 件 的 BODY 指 的 是 约束 条 件 左边 表达 式 的 取 值 ， 但 是 在 PROC OPTMODEL 中 并 不 限制 约束 条 


件 的 表达 方式 ， 约 束 条 件 可 以 表示 为 f (X) 
x+y， 如 果 最 优 解 为 x=1，y=2， 则 约束 条 件 .BODY 的 取 值 为 1。 


(z; 


在 例 21.1 中 ， 可 以 使 用 .BODY 和 .DUAL 查 看 原料 flour、cream 和 butter 的 使 用 量 及 影子 价格 。 代 码 如 下 : 


，>) g (x) ， 此 时 约束 条 件 的 BODY 指 的 是 f (x) -g (x) 。 例 如 ,约束 条 件 x-4>2x-y-2 的 BODY 和 约束 条 件 x- (2x-y) >-2+4 的 BODY 是 一 样 的 ， 为 - 











DE 
print 


flour.body cream.body bu 
Flour.dual cream.dual bu 


ter .body; 
ter.dual; 



































输出 如 图 21.11 所 示 。 


Flour .BODY Gream.BODY Butter.BDODY 


130 








Flour.DUAL Cream.DUAL 
27.5 225 


图 21.11 约束 条 件 .BODY 和 .DUAL 示 例 


40 


Butter.DUAL 


08.15 


约束 条 件 flour.body、cream.body 和 butter.body 的 取 值 分 别 为 130、60 和 40， 和 各 自 的 右 端 项 的 取 值 相等 ， 表 明 在 最 优 解 下 这 3 种 原料 都 正好 全 部 用 完 。 这 3 种 原料 的 影子 价格 分 别 为 27.5、22.5 和 


58.75， 表 示 这 3 种 原料 每 增加 一 个 单位 的 供应 量 ， 所 能 够 带 来 的 利润 提升 量 。 


21.4” 读 取 SAS 数 据 集 
在 前 面 的 介绍 中 ， 


全 
集合 


可 使 用 READ DATA 语 句 通过 数据 集 对 集合 、 参 数 和 参数 数组 进行 赋值 ， 基 本 语法 如 下 : 





、 参数 和 参数 数组 的 取 值 都 是 在 PROC OPTMODEL 中 进行 声明 时 直接 赋值 的 。 这 一 节 将 介绍 如 何 使 用 READ DATA 语 句 对 集合 、 


参数 和 参数 数组 赋值 。 








READ DATA 数据 集 [NOMISS] INTO 
[ 





























集合 名 称 =] [KEY 变 量 1 [KEY 变 量 2 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/OEBPS/Text/...]][ 读 取 变 量 语句 1] [http://www.hzcourse.com/: 





其 中 : 


数据 集 表 示 要 从 中 读 取 数据 的 数据 集 。 


[KEY 交 量 1[KEY 交 量 2http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15092/OEBPS/Text/...] 中 的 KEY 交 量 1、KEY 交 量 2 都 是 米 自 数据 集 的 变量 ， 称 为 





KEY 变 量 。KEY 变 量 可 以 是 一 个 变量 ， 也 可 以 由 多 个 变量 共同 组 成 ， 但 是 KEY 变 量 的 值 在 数据 集中 的 必须 是 唯一 的 。 如 果 在 READ DATA 语 句 中 指定 了 集合 名 称 (集合 必 须 已 经 声明 过 ) ，KEY 变 量 中 的 值 
将 保存 在 集合 中 ， 成 为 集合 的 项 。 在 READ DATA 语 句 中 ，KEY 变量 有 两 个 作用 : 一 是 为 [集合 名 称 =] 指 定 的 集合 赋值 ， 二 是 在 为 后 面 “ 读 取 变 量 语句 ”中 指定 的 参数 数组 赋值 时 提供 标识 。 如 果 KEY 变 量 是 


由 多 个 变量 共同 组 成 的 ， 那 么 集合 中 的 项 也 必须 是 和 多 个 变量 对 应 的 多 元 组 。 





. 如 果 在 读 取 数 据 集 时 指定 了 KEY 变 量 ， 则 READ DATA 语 名 会 读 取 数 据 集中 的 所 有 观测 ; 如 果 不 指 定 KEY 变 量 ， 那 么 READ DATA 语 句 只 读 取 数据 集中 的 第 一 条 观测 。 如 果 PROC OPTMODEL 发 现 观 


测 在 KEY 变 量 上 不 唯一 ， 将 会 在 日 志 中 输出 警告 ， 并 且 后 面 读 入 的 数据 将 会 覆盖 前 面 读 入 的 数据 。 


. 读 取 变量 语句 的 作用 是 将 数据 集中 变量 的 值 赋 给 参数 或 参数 数组 ， 选 项 NOMISS 表 示 在 给 数组 赋值 时 ， 如 果 遇 到 数据 集中 有 缺失 值 ， 则 不 将 缺失 值 赋 给 数组 ， 数 组 的 取 值 在 标识 为 KEY 变 量 当 前 值 时 
保持 原 值 。 一 般 读 取 变 量 的 语句 有 如 下 表达 形式 : 








标识 表达 式 = 数 据 集 变量 名 称 [/TRIM 选 项 ] 





等 号 左边 是 标识 表达 式 (由 参数 或 者 参数 数组 名 称 和 数组 的 标识 组 成 ) ， 右 边 是 数据 集 变 量 名 称 ， 该 语句 表示 将 数据 集中 变量 的 取 值 赋 给 左边 的 数组 。 标 识 表达 式 的 标识 部 分 往往 可 以 省 略 ， 从 而 只 包 
含 数 组 名 称 ， 至 于 标识 ， 则 由 KEY 变 量 指定 的 数据 集中 变量 的 值 决定 。 


每 读 入 数据 集 的 一 条 观测 时 ，PROC OPTMODEL 都 会 首先 获取 KEY 变 量 指定 的 数据 集 的 变量 在 当前 观测 上 的 值 ; 如 果 语 句 中 通过 [集合 名 称 =] 指 定 了 需要 赋值 的 集合 ， 那 么 KEY 变 量 指定 的 变量 在 当前 
观测 的 值 会 作为 该 集合 的 一 个 项 ， 添 加 到 集合 中 ; 接 下 来 ，PROC OPTMODEL 会 把 语句 “标识 表达 式 = 数据 集 变量 名 称 [TRIM 选 项 ”中 “数据 集 变 量 名 称 ”指定 的 数据 集 变量 在 当前 观测 的 值 赋 给 “标识 
表达 式 ” 指 定 的 参数 或 参数 数组 ， 如 果 是 参数 数组 ， 如 前 所 述 ， 需 要 赋值 的 数组 元 素 的 标识 由 KEY 变 量 指定 的 变量 在 当前 观测 上 的 值 确 定 。 


在 进行 赋值 的 时 候 ， 等 于 号 左边 的 标识 表达 式 和 右边 数据 集中 的 变量 名 称 没有 任何 关系 ， 如 果 两 个 参数 和 变量 的 名 称 完 全 不 一 样 ， 同 样 可 以 进行 赋值 。 
如 果 数 据 集中 的 变量 名 称 和 参数 或 参数 组 的 名 称 相同 ， 则 可 以 省 略 等 号 和 等 号 右边 的 部 分 ， 直 接 表示 为 : 


标识 表达 式 [/TRIM 选 项 ] 





有 时 ， 在 读 取 变量 语句 中 ， 数 据 集中 的 变量 名 称 也 可 以 通过 COL (表达 式 ) 计算 得 出 ， 此 时 读 取 该 变量 的 语句 可 以 表示 为 : 





标识 表达 式 =COL (表达 式 ) [/TRIM 选 项 ] 


TRIM 选 项 用 来 指定 在 读 取 字符 数据 时 ， 对 字符 数据 前 后 空格 的 处 理 方法 。 以 下 是 4 种 不 同 的 TRIM 选 项 。 
TRIM|TR: 删除 字符 数据 前 后 的 空格 ， 这 是 默认 选项 。 

. LIRIM|LT: 删除 字符 数据 前 面 的 空格 。 

RTRIM|RT: 删除 字符 数据 后 面 的 空格 。 

. NOTRIMINT: 保留 原始 字符 数据 ， 不 删除 任何 前 后 空格 。 


下 面 将 介绍 几 个 读 取 数据 集 的 例子 。 代 码 如 下 : 


/*Example 1*/ 
data work.indata; 
Lt TR 
datalines; 

1 2 





proc optmodel; 
num j,k; 
read data work.indata into J] k; 
put J= k=; 

quit; 


上 面 的 程序 用 READ DATA 语 句 从 数据 集 work.indata 中 将 变量 j 和 k 的 值 复 制 给 了 PROC OPTMODEL 中 的 参数 和 k。 日 志 中 的 输出 为 : j=1k=2。 


/*Example 2*/ 

data work.invdata; 

input item $ invcount; 
datalines; 

table 100 

sofa 250 

chair 80 





proc optmodel; 
set<string> ITEMS; 
number Invcecount{ITEMS}; 
read data work.invdata into ITEMS=[item] Invcount; 
print invecount; 
le bE 












































在 上 面 程序 中 ，READ DATA 语 句 从 数据 集 work.invdata 中 读 取 了 两 个 变量 的 值 。 数 据 集中 的 变量 item 填 充 了 集合 ITEMS， 同 时 ， 参 数 数组 Invcount 也 被 赋予 对 应 观测 中 变量 Invcount 的 值 。 在 赋值 的 
时 候 ， 参 数 的 数据 类 型 必须 和 数据 集中 变量 的 数据 类 型 一 致 。 输 出 如 图 21.12 所 示 。 











图 21.12 ”Example 2 输出 内 容 


/*Example 3*/ 

data work.exdata; 
input column1l column2; 
datalines; 

下: 演 

3 4 


proc optmodel; 
number n init 2; 
set <num> INDX; 
number p{INDX }, gq{INDX }; 
read data work.exdata into 








INDX =[ N ] p=columnl1 gq=col ("column"||n); 
Print. Bo 
quit; 


上 面 程序 中 的 READ DATA 语 句 通 过 数据 集 work.exdata 为 集合 INDX 和 参数 数组 p、q 进 行 赋值 。 这 里 使 用 了 COL (表达 式 ) 计算 出 了 数据 集 变量 名 称 (如 ，col (“column”||n) ) ， 并 且 标 识 表达 式 
只 指定 了 参数 数组 名 称 (p 和 9q) ， 而 没有 指定 标识 ， 那 么 系统 将 默认 使 用 数据 集中 的 KEY 变 量 (_N_) 作为 该 参数 数组 的 标识 。 这 段 READ DATA 语 句 和 下 面 的 代码 是 等 价 的 。 





read data work.exdata into 
INDX =[ N ] pl N ]=columnl ql[ N ]=col ("column"||n); 





输出 如 图 21.13 所 示 。 











图 21.13 Example 3 输出 内 容 


还 有 一 种 使 用 索引 集 读 取 数 据 的 形式 ， 如 下 : 


{索引 和 集 } < 读 取 变量 语句 > 





这 里 的 读 取 变量 语句 必须 用 < > 括 起 来 。 在 索引 集中 可 以 声明 虚拟 参数 ， 并 应 用 在 COL 表 达 式 中 。 对 于 这 种 形式 ， 在 读 取 数据 时 ， 将 根据 索引 集中 的 项 依次 执行 读 取 变量 语句 ， 直 到 遍历 完 索 引 集 中 所 有 
的 项 为 止 。 下 面 一 段 代码 展示 了 这 种 形式 的 使 用 方法 和 数据 集 特点 。 


/*Example 4*/ 
data work.dmng; 

input loc $ dayl day2 day3 day4 day5; 
datalines; 
Bast LL -2.3 
West 7.0 2.1 





.3 .306. 4 
65 95:58. 332 














proc optmodel; 
set DOW = lhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/..5; /* days of week, 1=Monday, 5=Friday */ 
set<string> LOCS; /* locations */ 
number demand{LOCS, DOW}; 
read data work.dmnd into LOCS=[loc] 
{d in DOW} <demandl[loc, dl]=col ("day"||d) »>; 
print demangd; 
quit; 




















上 面 程序 在 声明 集合 LOCS 时 ， 没 有 给 LOCS 赋 初始 值 ， 因 此 必须 指定 集合 中 的 项 的 数据 类 型 ， 如果 不 指定 数据 类 型 ，PROC OPTMODEL 默 认 数 据 类 型 为 NUM。{d in DOW} 指 定 了 一 个 索引 集 ， 当 虚 
拟 参数 d 在 DOW 中 人 遍历 时 ， 变 量 day1 到 day5 的 值 依次 被 赋 给 了 参数 demand[loc，1] 到 demand[loc，5]。 这 段 READ DATA 语 句 和 下 面 的 READ DATA 语 句 是 等 价 的 。 


read data work.dmnd into LOCS= [loc] 





aqemandq[loc 4]=day4 


demand[loc,5]=day5; 





输出 如 图 21.14 所 示 。 








East 1 23 13 30 4.1 
West 0 2161 58 32 








图 21.14 Example 4 输出 内 容 


例 21.4: 在 PROC OPTMODEL 中 ， 将 数据 集 sashelp.zipcode 中 的 纬度 数据 (Y) 、 经 度数 据 (X) 及 城市 名 称 (CITY) 数据 读 入 参数 数组 Latitude、Longtitude 和 City 中 。Sashelp.zipcode 的 部 分 数 
据 如 表 21.5 所 示 。 


表 21.5 ”Sashelp.zipcode 中 的 部 分 数据 


示例 代码 如 下 : 





proc optmodel; 
/*declare sets and parameters*/ 
set <num> ZIPCODE; 
num Latitude{ZIPCODE},Longtitude{ZIPCODE}; 
str City{ZIPCODE}; 
/*read data from SAS data sets*/ 
read data sashelp.zipcode (obs=5) into ZIPCODE=[zip] Longtitude=x Latitude=y City; 
Put ZIPCODE=; 
print Longtitude Latitude City; 
quit; 




























































































这 个 例子 中 首先 声明 了 集合 ZIPCODE， 然 后 ， 以 集合 ZIPCODE 为 索引 集 声明 了 两 个 数值 型 参数 数组 Latitude 和 Longtitude， 以 及 一 个 字符 型 参数 数组 City。 


接 下 来 使 用 READ DATA 语 句 从 数据 集 sashelp.zipcode 中 读 取 数 据 ， 将 数据 集中 的 变量 zip 赋 值 给 集合 ZIPCODE， 并 将 对 应 观测 的 变量 x、 变 量 y 和 City 分 别 赋值 给 数组 Longtitude、Latitude 和 City。 由 
于 City 在 数据 集中 的 变量 名 称 和 参数 数组 中 相同 ， 所 以 在 对 参数 数组 赋值 时 ， 不 需要 使 用 = 来 指定 数据 集中 变量 的 名 称 。 注 意 到 ， 数 据 集 sashelp.zipcode 中 存在 更 多 的 变量 ， 但 是 由 于 PROC OPTMODEL 
中 不 需要 这 些 变量 的 数据 ， 因 此 ， 不 用 在 READ DATA 语 句 中 将 它们 读 取 进 来 。 


数据 集 选 项 OBS= 使 得 READ DATA 语 句 只 从 数据 集中 读 取 了 前 5 条 数据 ， 其 他 可 以 在 READ DATA 语 句 或 者 CREATE DATA 语 句 ( 稍 后 将 在 21.5 中 介绍 ) 中 使 用 的 数据 集 选 项 如 下 。 


. 选项 FIRSTOBS=n: 和 DATA 步 中 的 用 法 一 样 ， 表 示 跳 过 前 面 n-1 条 观测 ， 从 第 n 条 观测 开始 读 取 。 
选项 PW=: 操作 被 保护 的 数据 集 时 ， 用 来 指定 密码 。 

“ 选项 READ=: 操作 被 保护 的 数据 集 时 ， 用 来 指定 密码 。 

. 选项 RENAME=: 修改 数据 集中 的 变量 名 称 。 

“ 选项 WHERE=: 在 读 取 或 者 输出 数据 集 时 ， 只 读 取 或 只 输出 符合 固定 条 件 的 观测 。 


代码 的 最 后 用 PUT 语句 在 日 志 中 输出 了 集合 ZIPCODE， 用 PRINT 语 句 输 出 了 参数 数组 ， 这 样 可 以 快速 检查 数据 读 入 是 否 正 确 。 日 志和 输出 结果 分 别 如 图 21.15 和 图 21.16 所 示 。 日 志 中 显示 系统 只 读 取 了 
5 条 观测 ，PUT 语 句 输出 了 集合 ZIPCODE 中 的 项 。 


574 proc optmodel; 
declare sets and parameters*/ 
Bt 《mum> IPCODE ; 
num LatitudelzIPCODE},Longtitudelz1PCODE}:; 
str City{zlPCODE]; 


/*read data from SAS data setst*/ 
read data sasheip.zipcodelobs=5) into 2IPCODE=[zip] Longtitude=x Latitude=y City': 
5 observat ions read from the data set SAGSHELP .21PCLODE. 


print Longtitude Latitude Lity: 
S85 quit.; 
TE: PROCEDURE OPTMODEL used (Total process time): 
real time 0 .03 Seconds 
cpu time 0.00 seconds 





图 21.15” 例 21.4 的 日 志 内 容 


例 21.5: 将 例 21.1 中 的 原料 和 产品 用 料 数 据 存储 在 了 数据 集 work.resouce_data 和 work.product_data 中 ， 在 PROC OPTMODEL 中 运用 READ DATA 语 句 从 数据 集中 读 取 数据 并 赋 给 集合 PRODUCT、 
RESOURCE、 参 数 数 组 Requirement、Cost 和 Available。 代 码 如 下 : 





data work.resource data; 
input Res $ cost Amount; 
datalines; 

flour 20 130 

cream 40 60 

butter 35 40 





PU 
data work.product data; 
length prod $9; 
input prod $ Selling Price flour cream butter; 
datalines; 
croissant 440 3 2 2 
toast .330 31951 
baguette 315 4 0.5 1 
cookie 385 3.5 21 

















Uniy 

proc optmodel; 
/*declare sets and parameters*/ 
set <str> PRODUCT, RESOURCE; 
num Cost{RESOURCE},Available{RESOURCE}; 
num Selling Price{PRODUCT}; 
num Requirement {PRODUCT, RESOURCE}; 
/*read data from SAS data sets*/ 
read data work.resource data into RESOURCE=[Res] Cost Available=Amount; 
read data work.product data into PRODUCT=[prod] Selling Price {r in RESOURCE 

<Requirement [prod, r]=col (r)>; 加 

print Cost dollar. Available' 
print Selling Price dollar. Requirement; 

quit; 
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这 里 的 语句 “read data work.resource data into RESOURCE=[Res]Cost Available=Amount; ”中 标识 表达 式 中 只 含有 参数 数组 的 名 称 ， 而 省 略 了 标识 ， 默 认 情况 下 ， 系 统 使 用 数据 集中 KEY 变 量 
(Res) 作为 参数 数组 的 标识 。 这 段 代 码 和 下 面 的 代码 是 等 价 的 。 














read data work.resource data into RESOURCE=[Res] Cost[Res]=Cost Available[Res]=Amount， 


















































































































































toast 10 15 


图 21.17 例 21.5 输 出 内 容 


输出 如 图 21.17 所 示 。 


例 21.6: (多 个 KEY 变 量 的 情形 ) 数据 集 work.inventory 中 保存 了 某 仓库 按 车 型 、 按 颜色 分 的 库存 数据 ， 运 用 PROC OPTMODEL 将 库存 变量 init_inv 的 数据 读 入 参数 数组 Initinv 中 。 


以 下 代码 生成 了 数据 集 work.inventory。 


data work.inventory; 
input package $ color $ inventory; 
datalines; 

Excelle Yellow 20 

Excelle Grey 30 

Excelle Black 40 

Excelle Blue 10 

Malibu Red 30 

Malibu White 30 

Malibu Grey 20 


run; 
































以 下 代码 用 PROC OPTMODEL 将 work.inventory 中 的 数据 读 入 集合 PACKAGE_COLOR 和 参数 数组 Initinv 中 。 


proc optmodel; 
/*declare sets and parameters*/ 
set <str,str> PACKAGE COLOR; 
num Initinv{PACKAGE COLOR}; 
/*read data from SAS data sets*/ 
read data work.inventory into PACKAGE COLOR= [Pkg colr] Initinv=inventory; 














put PACKAGE COLOR=; 
print Initinv; 
quit; 








这 段 代码 中 声明 了 和 集合 PACKAGE_COLOR， 其 中 每 个 项 都 是 一 个 二 元 组 ;然后 以 该 集合 为 索引 集 定义 了 一 个 参数 数组 Initin。 数 据 集 work.inventory 中 的 变量 pkg 和 colr 共 同 组 成 了 KEY 变 量 ，READ 
DATA 语 句 将 这 两 个 变量 的 值 赋 给 了 集合 PACKAGE_COLOR， 相 应 观测 的 inventory 的 取 值 则 赋 给 了 数组 Initinv。PUT 语 句 在 日 志 中 输出 了 集合 PACKAGCE_COLOR， 如 图 21.18 所 示 。PRINT 语 句 输出 了 参数 


Initinv 的 数据 ， 如 图 21.19 所 示 。 


B1 put PACKAGE_COLOR=; 
PACKAGE_COLOR={¢ Excelle , Tellow > Excel1le , Grey >»,¢ Excelle , Black >»,¢ Excelle’ , Blue >,¢« 


‘Malibu’ ,Red’y,<’Malibu’,’Whi 


te yy, Malibu ,Grey >} 





图 21.18 ”集合 PACKAGE_COLOR 
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21.5 创建 SAs 数 据 集 





图 21.19 ” 例 21.6 输 出 参数 Initinv 的 内 容 


和 READ DATA 语 句 的 语法 类 似 ， 使 用 CREATE DATA 语 句 创 建 数据 集 的 基本 语法 如 下 : 








CREATE DATA 数据 集 FROM 
KEY 变 量 1 [KEY 变 量 2http://www.hzcourse.com/resource/readl 














一 一 





让 








其 中 : 


Book?path=/openresources/teach ebook/uncompressed/15092/0E 





BPS/Text/...]] [=R 











FY 集合 ] [输出 变量 语句 1] [http://www.hzcourse.com/r 


" 数据 集 表 示 要 创建 的 数据 集 名 称 。 


.KEY 集合 是 一 个 集 。 医 EY 变 量 1 医 EY 变 量 2http://www.hzcoufse.comytesoutce/teadBook?path=/openhtesoutces/teach_ebook/uncomptessed/15092/OEBPSVText/...]EKEY 集 合 | 表示 将 KEY 集 合 中 的 项 输出 
到 KEY 变 量 中 ，KEY 变 量 1 和 和 KEY 变量 2 等 都 是 输出 数据 集中 新 创建 的 变量 名 称 。 如 果 集 合 中 的 项 是 多 元 组 ， 那 么 个 位 置 的 数据 将 依次 赋 给 对 应 的 KEY 变 量 


里 o 


* 输出 变量 语句 的 作用 是 将 PROC OPTMODEL 中 的 数据 输出 到 数据 集 的 变量 中 ， 一 般 有 如 下 表示 形式 : 





变量 名 称 = 表达 式 [/COLUMN 选 项 ] 


等 号 左边 表示 数据 集中 新 创建 的 变量 名 称 ， 等 号 右边 是 PROC OPTMODEL 中 的 变量 、 参 数 或 常数 等 组 成 的 表达 式 ， 该 语句 的 作用 是 将 右边 表达 式 的 值 赋 给 左边 数据 集中 的 变量 。 


如 果 数 据 集中 的 变量 名 称 和 右边 表达 式 的 名 称 相 同 ， 则 可 以 省 略 等 号 和 等 号 左边 的 部 分 ， 直 接 表示 为 : 





标识 表达 式 [/COLUMN 选 项 ] 


有 时 ， 左 边 数据 集中 的 变量 名 称 也 可 以 通过 COL (表达 式 ) 计算 得 到 ， 那 么 输出 变量 语句 可 以 表示 为 : 





COL 表 达 式 = 表达 式 [/COLUMN 选 项 ] 


加 注意 ”如果 等 号 右边 的 表达 式 中 包含 运算 符 (如 +、-、*、/ 等 ) 或 者 函数 ， 则 必须 将 表达 式 用 () 括 起 来 ， 否 则 系统 会 报错 。 
COLUMN 选 项 主要 有 以 下 几 种 。 

. FORMAT=: 指定 当前 变量 的 输出 格式 ， 如 8.2、DOLLAR.、COMMA8.2、DATE9.。 

.INFORMAT=: 指定 当前 变量 的 输入 格式 。 

.TABEI=: 指定 当前 变量 的 标签 ， 标 签 的 内 容 可 以 是 用 引号 引起 来 的 字符 串 或 者 是 用 括号 括 起 来 的 表达 式 。 

.LENGTH=: 指定 当前 变量 的 长 度 ， 字 符 型 变量 的 长 度 为 1 到 32767 个 字符 。 


下 面 一 段 代 码 演示 了 如 何 运 用 CREATE DATA 语 句 生成 数据 集 work.squares， 其 中 包含 了 两 个 变量 sequence 和 square，sedquence 由 集合 INDX 赋 值 ，square 由 以 INDX 为 索引 集 的 数组 sq 赋值 。 变 量 
sedquence 为 KEY 变 量 ， 输 出 格式 为 hex2.， 长 度 为 3; 变量 square 的 输出 格式 为 6.2。 





proc optmodel; 


set <num> INDX=1http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/..10; 

num Sq{i in INDX} = i*i; 

create data work.squares from [Sequence=INDX/format=hex2./length=3] square= 
Sq/format=6.2; 









































run; 
proc print data=work.squares; 
run; 





PRINT 过 程 输出 如 图 21.20 所 示 。 
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图 21.20 ”PRINT 过 程 输出 内 容 
和 READ DATA 语 句 中 类 似 ，CREATE DATA 语 句 也 可 以 使 用 索引 集 来 输出 变量 ， 语 法 如 下 : 


{索引 集 } < 输出 变量 语句 > 





这 里 的 输出 变量 语句 必须 用 < > 括 起 来 ， 索 引 集 中 可 以 声明 虚拟 参数 ， 并 应 用 在 COL 表 达 式 。 运 用 这 种 形式 输出 变量 时 ， 将 根据 索引 集中 的 项 依次 执行 输出 变量 语句 ， 直 到 饥 历 完 索 引 集中 的 所 有 项 为 
止 。 下 面 一 段 代 码 展示 了 这 种 形式 的 使 用 方法 。 





proc optmodel; 
Set <string> alph = {'a', 'b', 'c'}; 
var x{lhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/..3, alph} init 2; 
create data work.example from [i]=(lhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/..3) 
{j in alph}<col ("x"||j)=x[i,j]>; 
quit; 
roc printy 
run; 





























上 面 的 CREATE DATA 语 句 等 价 于 下 面 代码 : 














create data work.example from [i]={1lhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/..3} xa=x[i,al] 
xb=x [i,b] 
X=X[i;c]; 














输出 如 图 21.21 所 示 。 
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图 21.21 使 用 索引 集 输出 数据 集 
例 21.7: 将 例 21.5 中 的 优化 结果 和 原材料 利用 率 数 据 输 出 到 数据 集 work.opt_solution 和 work.resource_usage 中 。 


示例 代码 如 下 : 





proc optmodel; 
/*declare sets and parameters*/ 
set <str> PRODUCT, RESOURCE; 
num Cost{RESOURCE},Available{RESOURCE}; 
num Selling Price{PRODUCT}; 
num Requirement {PRODUCT, RESOURCE}; 
/*read data from SAS data sets*/ 
read data work.resource data into RESOURCE=[Res] Cost Available=Amount; 
read data work.product data into PRODUCT=[prod] Selling Price {r in RESOURCE} 
<Requirement [prod, r]=col (r)>; 
/*declare variables*/ 
Var X{PRODUCT}>=0; /*decision variables*/ 
impvar Amount Used{r in RESOURCE}=sum{p in PRODUCT}Requirement[p,r]*X[p]; 
/*implicit variables*/ 
impvar Revenue=sum{p in PRODUCT}Selling Price[p]*X[p]; 
impvar Costing=sum{r in RESOURCE}Cost[r]*Amount Used[r]; 
/*declare constraints*/ 
con Usage{r in RESOURCE}: Amount Used[r]<=Availablel[r]; 
/*declare objective*/ 
max Profit=Revenue-Costing; 
/*call Solver*/ 
solve ob]j Profit with lp/solver=ds; 
/*create data sets*/ 
create data work.opt solution from [Products]l={p in PRODUCT: X[p]>0} 
Volume Produced=X Profit= (Selling Price[lp]*X[p] - sum{r in RESOURCE} 
Cost[r]*Requirement [p,r]*X[p]) /format=comma8.; 
create data work.resource usage from [Resources]={r in RESOURCE} Amount Used[r] 
TotalCost= (Cost[r]*Amount Used[r])/format=comma8. Usage= 




































































































































































































































































(Amount Used[r]/Available[r]) /format=percent10.2; 
quit; 
proc print data= work.opt solution; 
run; 加 
proc print data= work.resource usage; 
run; 


在 上 面 程序 中 ， 第 一 个 CREATE DATA 语 句 创建 了 数据 集 work.opt_solution， 并 使 用 表达 式 (Selling_Price[p]*X[p]-sumtr in RESOURCE}Cost[r]*Requirement[p，r]*X[p]) 计算 出 了 每 种 产品 的 利 
润 ， 然 后 输出 给 变量 profit。 创 建 的 数据 集 如 图 21.22 所 示 。 


Ubs Products Volume Produced | Profit Dbs Resources Amount Used TotalLost Usage 
1 | toast 25 | 4.315 1 flour 130 2,.600 | 100.00% 


2 | baguette 5 900 2 cream 60 2.400 | 100.00% 
3 | cookie 10| 2.000 3 butter 40 1400 100.00% 


图 21.22” 例 21.7PRINT 过 程 输出 内 容 


21.6 本章 小 结 


本 章 在 开始 部 分 介绍 了 PROC OPTMODEL 中 涉及 的 基本 概念 ， 如 参数 、 索 引 集 、 数 据 类 型 、 表 达 式 等 概念 。 然 后 通过 示例 介绍 了 运用 PROC OPTMODEL 建 立 模型 和 求解 模型 的 基本 结构 。 接 下 来 ， 结 
合 大 量 示例 详细 介绍 了 PROC OPTMODEL 中 各 种 要 素 的 声明 和 使 用 方法 ; 最 后 ， 介 绍 了 如 何 运 用 READ DATA 语 句 和 CREATE DATA 语 句 在 PROC OPTMODEL 中 读 取 和 创建 数据 集 。 


第 22 音 ”PROC OPTMODEL 程 序 设计 


在 前 面 关于 PROC OPTMODEL 的 介绍 中 ， 讲 解 了 PROC OPTMODEL 的 基本 结构 ， 以 及 如 何 运 用 PROC OPTMODEL 来 求解 一 些 相对 简单 的 线性 规划 问题 。 在 这 些 问题 中 ， 大 多 数 没有 涉及 数组 及 索引 
集 的 加 工 与 处 理 。 然 而 ， 在 实际 应 用 中 ， 优 化 问题 都 比较 复杂 ， 离 不 开 这 些 加 工 与 处 理 ， 并 且 在 很 多 情况 下 ， 条 件 控制 与 循环 的 使 用 可 以 使 代码 更 加 有 效率 、 简 洁 。 在 PROC OPTMODEL 中 ， 如 何 实现 常 
见 的 流程 控制 方法 (如 条 件 控制 与 循环 ) 以 及 加 工 索引 集 是 本 章 要 讨论 的 问题 之 一 。 通 常情 况 下 ， 模 型 建立 之 后 ， 决 策 变量 的 增加 或 减少 、 参 数 的 改变 、 约 束 条 件 以 及 目标 函数 的 变化 都 会 带 来 模型 更 新 的 
问题 。 在 PROC OPTMODEL 中 ， 如 何 实现 对 优化 模型 的 更 新 是 本 章 要 讨论 的 另外 一 个 问题 。 本 章 的 最 后 一 部 分 将 介绍 一 类 特殊 的 线性 规划 问题 模型 一 一 网 络 流 模型 。 


22.1 PROC OPTMODEL 中 的 流程 控制 方法 与 集合 运算 


常见 的 流程 控制 。 此 外 ， 对 索引 集 的 灵活 操作 也 是 PROC OPTMODEL 的 特色 之 一 。 


常见 的 流程 控制 方法 有 条 件 语句 和 循环 语句 。 在 下 文 的 介绍 中 ， 读 者 可 以 了 解 到 如 何在 PROC OPTMODEL 实 现 这 些 
集合 处 理 函 数 供用 户 使 用 。 


此 操作 离 不 开 集 合 运算 符 ，PROC OPTMODEL 提 供 多 种 集合 运算 符 (包括 常见 的 集合 运算 符 ， 如 交集 、 并 集 ) 以 及 
22.1.1 ”常见 的 流程 控制 方法 
在 PROC OPTMODEL 中 ， 常 见 的 流程 控制 语句 如 下 : 
` DO (界定 语句 组 ) 
` DO (人 循环 ) 
. DO UNTIL 
. DO WHILE 
. FOR 
.IETHENVIFTHEN ELSE 
. LEAVE 
. STOP 
下 面 将 一 一 介绍 这 些 流程 控制 语句 的 功能 。 
(1) DO (界定 语句 组 ) 


在 PROC OPTMODEL 中 ， 关 键 字 DO 可 以 用 来 界定 一 个 语句 组 ， 语 法 如 下 : 




















一 对 DO-END 语 句 界定 了 一 个 语句 组 。DO-END 常 常 配 合 循环 语句 以 及 条 件 语句 使 用 。 例 如 ， 当 条 件 语句 的 逻辑 表达 式 为 真 时 ， 执 行 某 个 语句 组 (依次 执行 该 语句 组 内 的 各 个 语句 ) 。 
(2) DO (循环 ) 


关键 字 DO 还 可 以 表示 循环 ， 具 体 的 语法 如 下 : 











DO 参数 -= 值 ] [, 值 2, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/OEBPS/Text/...， 值 K]; 


语句 1; 



































在 执行 时 ，PROC OPTMODEL 将 语句 中 的 参数 赋值 为 “ 值 1” 并 依次 执行 “语句 1” 到 “语句 N”; 接 着， 参数 将 被 赋值 为 “ 值 2 ， 并 依次 实行 “语句 1” 到 “语句 N”; 重复 上 述 过 程 ， 直 至 遍历 指定 
参数 所 有 可 能 的 取 值 为 止 。 上述 语法 中 的 “ 值 1 、“ 值 2” 等 参数 的 取 值 既 可 以 是 数值 型 也 可 以 是 字符 型 ， 还 可 以 是 某 个 特定 的 集合 ， 甚 至 可 以 包 售 WHILE 或 者 UNTIL 等 关键 字 。 这 里 需要 注意 的 是 ，DO 


语句 中 参数 的 类 型 必需 提前 声明 。 


例如 ， 以 下 代码 定义 了 参数 的 类 型 ， 并 指定 的 取 值 为 1、3、5。 


proc optmodel; 
number 1; 


运行 上 述 代码 ， 在 日 志 中 ， 输 出 结果 为 1、3 和 5。 可 以 将 上 述 所 有 ;的 值 定义 为 一 个 集合 ， 记 为 S。 指 定 j=3， 那 么 i 会 自动 遍历 整个 集合 s 内 的 所 有 元 素 。 例 如 ， 以 下 代码 的 输出 结果 与 前 一 段 代码 一 致 。 


proc optmodel; 
number 1; 
SG 9 = "LC 
[ele Nn ee 
这 
end; 
quit; 





DO 语句 中 参数 的 取 值 还 可 以 结合 UNTIL 语 句 或 WHILE 语 句 使 用 。 例 如 ,假设 在 上 面 的 代码 中 ，| 的 取 值 为 S 中 满足 条 件 的 部 分 元 素 ， 即 不 等 于 5， 那 么 在 这 种 情况 下 ， 可 以 使 用 WHILE 语 句 加 以 判断 。 具 
体 代码 如 下 : 





doi=S while (i ne 5); 
put 1 


运行 上 面 的 代码 ， 在 日 志 中 输出 结果 为 : 1 和 3。 


如 果 参 数 的 取 值 是 按照 一 定 步 长 变化 的 ， 还 可 以 通过 指定 参数 取 值 边界 并 结合 BY 语句 控制 步 长 ， 来 实现 对 参数 取 值 的 控制 。 具 体 如 下 面 的 代码 : 


proc optmdeol; 
number 1; 
doi=1to5 by 2; 
Butr 
engd; 

quit; 


运行 上 面 的 代码 ， 在 日 志 中 输出 结果 为 : 1、3 和 5。 


在 前 面 的 例子 中 ，DO 语 句 中 参数 的 取 值 都 为 数值 型 。 下 面 的 例子 ， 定 义 了 一 个 字符 型 参数 origin。 在 DO 语句 中 ，origin 遍 历 了 索引 集 FROM 中 的 所 有 项 。 代 码 如 下 : 


proc optmodel; 
set FROM = {'NYC', 'NJ', 'Boston'}; 
Stiind Oriolns 
do origin = FROM; 
Pub Oriloiry 
engd; 
quit; 








运行 上 面 的 代码 ， 在 日 志 中 输出 结果 为 : NYC、NJ 和 BOSTON。 
(3) DO UNTIL 


DO UNTIL 可 以 用 来 循环 执行 某 些 操作 ， 直 至 某 一 条 件 成 立 才 退出 循环 。 其 语法 如 下 : 








DO _ UNTIL (逻辑 表达 式 ) ， 
语句 1; 
语句 2; 
语句 N; 

END; 

















每 次 执行 完 “ 语 名 1” 到 “语句 N”，DO UNTIL 语 句 都 会 判断 逻辑 表达 式 是 否 为 真 (逻辑 表达 式 的 值 非 零 或 者 为 非 缺 失 值 表示 为 真 ) 。 若 表达 式 为 真 则 退出 循环 ， 否 则 继续 执行 “语句 1” 到 “语句 
N”。 例 如 ， 以 下 代码 的 输出 结果 为 1 和 2。 


proc optmodel; 


number 工 ， 
i 
do until (1I=3) ， 
put i; 
i = i+l; 
end; 
quit; 


在 DO UNTIL 的 语法 中 ， 逻 辑 表达 式 也 可 以 是 带 逻 辑 运 算 符 的 多 重 逻 辑 表 达 式 。 常 见 的 逻辑 运算 符 有 : OR (或 ) 、AND ( 且 ) 、NOT (否定 ) 、> (大 于 ) 、>= (大 于 或 者 等 于 ) 、< (小 于 ) 、 
<= (小 于 或 者 等 于 ) 、IN (属于 ) 、NOT IN (不 属于 ) 、WITHIN (包含 ) 、NOT WITHIN (不 包含 ) 。 


例如 ， 以 下 代码 中 ， 逻 辑 表 达 式 是 由 关键 词 AND 连 接 的 双重 逻辑 表达 式 。 在 初始 阶段 ，i 被 赋值 为 1， 执 行 第 一 次 循环 ， 输 出 当前 i 值 (为 1) ， 并 将 i 值 自 增 1 个 单位 (为 2) 。 紧 接着 ,判断 DO UNTIL 中 
的 逻辑 表达 式 ， 以 确定 是 否 执行 第 二 次 循环 ， 此 时 ， 发 现 逻 辑 表达 式 为 真 ， 于 是 终止 循环 。 因 此 ， 代 码 的 输出 结果 为 1。 


proc optmodel; 








do until(i<3 and i IN A); 
put i; 
i = i+l; 


(4) DO WHILE 


DO WHILE 也 是 一 个 循环 语句 。 前 面 介绍 的 DO UNTINL 语 句 是 先 执行 语句 (或 语句 组 ) 再 判断 逻辑 表达 式 ， 而 DO WHILE 语句 则 是 先 判 断 逻 辑 表 达 式 ， 当 逻辑 表达 式 为 真 时 ， 才 执行 相应 的 语句 (或 语 
句 组 ) ， 若 逻辑 表达 式 不 为 真 ， 则 退出 循环 。 因 此 ，DO UNTIL 语 名 至 少 执行 一 次 语句 (或 语句 组 ) ， 而 DO WHILE 语句 则 有 可 能 不 执行 任何 语句 (或 语句 组 ) 。DO WHILE 语句 的 语法 如 下 : 








DO WHILE (逻辑 表达 式 ) ， 























例如 ， 在 下 面 的 代码 中 ，i 的 初始 值 为 1， 小 于 3， 逻 辑 表 达 式 成 立 ，PROC OPTMODEL 在 日 志 中 输出 当前 i 值 (为 1) ， 并 将 i 值 增加 一 个 单位 为 2; 接着 ， 重 新 判断 逻辑 表达 式 ， 仍 然 为 真 ， 继 续 在 日 志 
中 输出 当前 i 值 (为 2) ， 并 将 i 值 增加 到 3; 此 时 ， 逻 辑 表 达 式 不 成 立 ， 终 止 循环 。 因 此 ， 整 段 的 代码 的 输出 为 1 和 和 2。 


proc optmodel; 
number 工 ， 
ls 
do while (i<3); 
oA de eg 

i = i+l; 

end; 

quit; 


(5) FOR 
在 PROC OPTMODEL 中 ，FOR 语 句 可 以 用 来 对 某 个 或 者 某 几 个 索引 集 里 的 项 执行 相同 的 语句 ， 其 语法 如 下 : 
FOR{ 索 引 集 } 语 句 ， 


例如 ， 在 下 面 的 代码 中 ，FOR 语 句 共 定义 了 两 个 索引 集 : {1，2} 以 及 {a ，'b]}， 对 于 每 一 组 索引 集 ，PROC OPTMODFEL 都 执行 相同 的 语句 ， 即 在 日 志 中 输出 当前 的 i 值 与 | 值 。 


proc optmodel; 
for {i in lhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/..2, j in {'a', 'b'}} 
| oD han 























quit 


运行 上 述 代 码 ， 得 到 的 输出 结果 如 下 : 





UU- 
由 本 
DUOY 


Pp- P- Ph- H- 
人 | 4 
Momo 


(6) IF THEN 
在 PROC OPTMODEL 中 ， 可 以 通过 IF THEN 语 句 有 条 件 地 执行 一 些 语句 ， 从 而 实现 对 程序 流程 的 控制 ， 其 语法 如 下 : 
当 逻 辑 表达 式 为 真 时 ,执行 语句 1。 进 一 步 ， 如 果 存 在 ELSE 语 句 ， 那 么 当 人 逻辑 表达 式 不 为 真 时 ， 执 行 语句 2。 上 述 语法 中 ， 语 句 1 与 语句 2 均 可 以 是 语句 组 。 


下 面 代 码 使 用 FOR 语 句 来 遍历 索引 集 ORI 中 的 所 有 项 ， 对 每 一 个 项 都 判断 其 是 否 在 出 发 地 FROM 里 ， 如 果 当 前 项 在 出 发 地 FROM 里 ， 那 么 在 日 志 中 输出 “项 is in the FROM” ， 否 则 ， 在 日 志 中 输 
出 “项 is not in the FROM” 。 


proc optmodel; 
set<string> FROM = /' 北 京 '，' 石 家 庄 '/; 
set<string> START = / ' 北 京 '， ' 天 津 '/; 
for {s in START} do; 
if s in FROM then put s "is in the FROM"; 
else put Ss"is not in the From"; 
engd; 
quit; 
































运行 上 述 代 码 ， 输 出 结果 为 : 北京 is in the FROM、 天 津 is not in the FROM 。 
(7) LEAVE 


LEAVE 语 句 常常 配合 DO (循环 ) 、DO UNTIL、DO WHILE 以 及 FOR 语句 使 用 ， 用 来 终止 执行 当前 包含 LEAVE 的 循环 体 ， 其 他 未 直接 包含 LEAVE 语 句 的 循环 体 则 不 受 影响 ， 下 一 次 循环 也 不 受 影响 。 例 
如 ， 以 下 代码 中 ， 共 定义 了 两 个 循环 体 ， 一 个 是 参数 定义 的 外 循环 ， 另 外 一 个 是 参数 定义 的 内 循环 ， 如 图 22.1 所 示 。 


proc optmodel: 


it 1=2 and J=2 then leave: 





图 22.1 LEAVE 语 和 句 代 码 示 例 


\ 一 /一 


图 22.1 所 示 的 代码 在 SAS/OR 13.1 中 运行 时 ， 当 i= 1 时 ， 进 入 内 循环 ， 条 件 语句 不 成 立 ， 内 循环 不 执行 任何 操作 ，j 值 不 断 自 增 到 4， 退 出 内 循环 ， 输 出 i 值 科 j 值 ， 分 别 为 1 和 和 4; 接着 ，i 值 增加 到 2， 再 次 
进入 内 循环 ， 当 =2 时 ， 条 件 语 名 成立， 执行 LEAVE 语 句 ， 退 出 定义 的 内 循环 ， 输 出 值 和 值 ， 分 别 为 2 和 2; 最 后 ，i 值 增加 到 3， 再 次 进入 内 循环 ， 条 件 语 名 不成立 ，j 值 不 断 自 增 到 4， 退 出 内 循环 ， 输 出 当 


前 i 值 与 值 ， 分 别 为 3 和 和 4。 


整 段 代 码 的 输出 结果 如 下 : 


下 下 下 
ODP 
Uj-Uj. 
ll 
心 人 心 





(8) STOP 
STOP 语 句 用 于 终止 所 有 包含 STOP 的 语句 ， 包 括 条 件 语 句 和 循环 语句 (可 以 是 多 重 循环 语句 ) 。 例 如 ， 以 下 代码 (如 图 22.2 所 示 ) 在 SAS/OR 13.1 中 运行 时 ， 当 i=1 时 ， 进 入 j 定 义 的 内 循环 ， 条 件 语句 


不 成 立 ，j 值 不 断 自 增 到 4， 退 出 j 定 义 的 内 循环 ， 输 出 当前 i 值 和 j 值 ， 分 别 为 1 和 4; 接着 ，i 自 增 为 2， 当 =2 时 ， 条 件 语句 成 立 ， 执 行 STOP 语 句 ， 退 出 所 有 包含 STOP 语 句 的 内 循环 和 外 循环 。 


proc optmodel 
number 


4 一 一 一 一 一 一 一 内 循环 


and j=2 then stop: 





图 22.2”STOP 语 名 代码 示例 


因此 ， 整 个 代码 的 输出 如 下 : 


i=1 j=4 





22.1.2 ”常见 的 集合 运算 处 理 
因此 这 里 沿用 这 一 术语 。 在 使 用 PROC OPTMODEL 进 行 建 模 的 过 程 中 ， 无 论 是 数组 的 加 工 ， 还 是 约束 以 及 目标 立 数 


一 八 侍 全 


数学 上 ， 我 们 称 集合 内 元 素 的 个 数 为 该 集合 的 基数 。 由 于 索引 集 本 身 是 一 个 集合 ， 
的 表达 ， 往 往 都 伴随 着 索引 集 的 处 理 。 常 见 的 用 于 处 理 索 引 集 的 集合 表达 式 以 及 函数 如 下 : 


. AND 表 达 式 


- OR 表达 式 

: CARD 函数 

. CORSS 表 达 式 

. DIFF 表 达 式 

. INTER 表 达 式 

. IFTHEN ELSE 表 达 式 
. ININOTIN 表 达 式 
:MAXIMIN 集 成 表达 式 
` PROD 集 成 表达 式 
SLICE 表达 式 

. SYSDIFF 表 达 式 

. SETOF 和 集成 表达 式 

下 面 一 一 介绍 这 些 集合 表达 式 ， 以 及 它们 的 含义 和 用 法 。 
(1) AND 表 达 式 


在 PROC OPTMODEL 中 ，AND 表 达 式 的 作用 是 判断 索引 集中 所 有 的 项 是 否 都 满足 逻辑 表达 式 。 其 语法 如 下 : 








AND {索引 集 } 逻辑 表达 式 











AND 表 达 式 会 依次 判断 索引 集中 的 项 是 否 满足 逻辑 表达 式 。 若 当前 某 个 项 不 满足 逻辑 表达 式 ， 那 么 AND 表 达 式 停止 判断 其 余 索 引 集 ， 直 接 返 回 0 值 ( 假 ) ; 反之 ， 如 果 所 有 的 项 都 满足 逻辑 表达 式 ， 那 
么 ，AND 表 达 式 返回 值 为 1 ( 真 ) 。 例 如 ， 以 下 代码 中 ， 第 一 个 PUT 语句 的 输出 结果 为 1; 第 二 个 PUT 语句 的 输出 结果 为 0。 


proc optmodel; 
Put (and{i in lhttp://www.hzcourse.com/resource/readBook?path=/openresources/i 
put (and{i in lhttp://www.hzcourse.com/resource/readBook?path=/openresources/i 
quit; 











ach ebook/uncompressed/15092/0EBPS/Text/..5} i<10); *first put statement; 
ach ebook/uncompressed/15092/0EBPS/Text/..5} i NE 3); *second put statement; 












































| 

















(2) OR 表达 式 


在 PROC OPTMODEL 中 ，OR 表 达 式 的 语法 如 下 : 














OR {索引 集 } 逻辑 表达 式 





OR 表达 式 的 作用 是 判断 索引 集中 是 否 存 在 使 得 逻辑 表达 式 成 立 的 项 ， 如 果 存 在 某 个 项 使 得 逻辑 表达 式 成 立 ， 那 么 OR 表达 式 的 返回 值 为 1; 否则 ， 表 达 式 的 返回 值 为 0。 例 如 ， 下 面 代码 中 ， 第 一 个 PUT 
语句 的 输出 结果 为 1， 第 二 个 PUT 语 句 的 输出 结果 为 0。 


proc optmodel; 
put (or{i in lhttp://www.hzcourse.com/resource/readBook?path=/openresources/i 
put (or{i in lhttp://www.hzcourse.com/resource/readBook?path=/openresources/ 
quit; 











ach ebook/uncompressed/15092/0EBPS/Text/..5} i<3); *first Put statement; 
ach ebook/uncompressed/15092/0EBPS/Text/..5} i>6); *second put statement; 















































ct 











(3) CARD 函 数 


在 PROC OPTMODEL 中 ，CARD 疯 数 用 于 返回 某 个 集合 (可 以 是 集合 表达 式 运算 的 结果 ) 的 基数 。CARD 函 数 的 语法 如 下 : 





CARD (集合 表达 式 ) 











例如 ， 以 下 代码 中 ， 由 于 集合 “1http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/OEBPS/Text/..5” 中 含有 5 个 元 素 ， 因 此 CARD 函 数 
的 返回 值 为 5。 


proc optmodel; 
put (card (lhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/..5)); 


quit; 




















(4) CROSS 表 达 式 


在 PROC OPTMODEL 中 ，CROSS 表 达 式 的 作用 是 返回 两 个 集合 的 卡 氏 集 。 生 成 卡 氏 集 的 基数 为 原先 两 个 集合 的 基数 之 积 。 其 语法 如 下 : 


集合 1 CROSS 集合 2 





以 下 代码 中 ， 集 合 ORIGIN 和 DESTINATION 分 别 为 初始 地 和 终点 。 使 用 CROSS 表 达 式 生成 的 卡 氏 集 ROUTE 包 含 初始 地 与 终点 的 所 有 可 能 组 合 (路 线 ) ， 卡 氏 集 的 基数 为 6。 


proc optmodel; 
















































































set<string> ORIGIN= {' 北 京 '，' 保 定 '} 

set<string> DESTINATION { "福州 '， "泉州 1 ' 厦 门 ' }; 
set<string, string> ROUTE = ORIGIN cross DESTINATION; 
Put'ROUTE is: ' ROUTE ， 











运行 上 述 代 码 ， 在 日 志 中 ， 输 出 结果 如 下 : 


ROUTE is:{<' 北 京 ', "福州 '>}, { "北京 '， ' 州 '}, { "北京 '，' 厦 门 '},{' 保 定 ',' 福 州 '}， 
{保定 ', ' 果 州 '},{' 保 定 ', ' 厦 门 '} 





周 ) 


(5) DIFF 表 达 式 


在 PROC OPTMODEL 中 ，DIFF 表 达 式 的 作用 是 返回 两 个 集合 之 差 ， 即 由 存在 于 集合 1 中 但 不 属于 集合 2 的 全 体 元 素 所 组 成 的 集合 。DIFF 表 达 式 的 语法 如 下 : 


集合 1 DIFF 集合 2 











在 以 下 代码 中 ， 和 集合 DESTINATION3 包 含 的 是 目的 地 DESTINATION1 以 及 目的 地 DESTINATION2 之 差 。 运 行 下面 代 码 : 


proc optmodel; 








set<string> DESTINAT 








ON] {' 福 州 '"，' 泉 州 '"，' 厦 门 '}; 

















set<string> DESTINAT 


ON2 = {' 厦 门 '}; 























set<string> DESTINAT 














ON3 =DESTINATION] diff DESTINATION2; 



































put'DESTINATION3 is: 
quit; 











输出 结果 为 : 











' DESTINATION3; 



































(6) INTER 表 达 式 


DESTINATION3 is:{ "福州 "7，" 凡 州 7) 


在 PROC OPTMODEL 中 ，1INTER 表 达 式 的 作用 是 返回 两 个 集合 能 


集合 1 INTER 集合 2 








交集 ， 即 由 既 属于 集合 1 又 属于 集合 2 的 全 体 元 素 组 成 的 集合 。 其 语法 如 下 : 


例如 ， 以 下 代码 中 ， 集 合 DESTINATION3 包 含 的 是 目的 地 DESTINATION1 以 及 目的 地 DESTINATION2 的 交集 。 运 行 下 面 代 码 : 


proc optmodel; 








set<string> DESTINAT 





ON1 = {' 福 州 '，' 客 州 '"，' 厦 门 '}; 

















set<string> DESTINAT 


ON2 = {' 厦 门 '}; 


























set<string> DESTINAT 








ON3 =DESTINATION] inter DESTINATION2; 























put 'DESTINATION3 is: 
quit; 














日 志 中 的 输出 结果 为 : 

















DESTINATION3 is:{' 厦 门 '} 


(7) SYMDIFF 表 达 式 














' DESTINATION3; 














在 PROC OPTMODEL 中 ，SYMDIFF 表 达 式 的 作用 是 返回 两 个 集合 除 交 集 外 的 部 分 所 组 成 的 集合 。 其 语法 如 下 : 


集合 1 SYMDIFF 集合 2 








例如 ， 有 以 下 代码 : 


proc optmodel; 
set<string> ORIGIN = 















































{' 北 京 '，' 保 定 '}; 





set<string> ORIGIN2 = {' 北 京 '，' 泉 州 ' }; 





put (ORIGIN symdiff ORIGIN2) ; 

















{ 全 保定 "及 州 !) 


(8) IF THEN ELSE 表 达 式 


IF THEN ELSE 不 仅 可 以 用 来 控制 程序 的 流程 ， 还 可 以 用 来 处 理 索引 集 ， 二 者 的 语法 相同 。 具 体 有 ， 当 IF THEN ELSE 用 来 处 理 索引 集 时 ， 语 法 如 下 : 











IF 逻辑 表达 式 THEN 表达 式 1[ 











ELSE 表达 式 2] 











如 果 逻 辑 表 达 式 为 真 ( 非 零 或 者 非 缺失 值 ) ， 那 么 执行 表达 式 1; 


否则 ， 执 行 表达 式 2。ELSE 语 句 与 最 近 的 IF-THEN 语 句 匹 配 。 


例如 ， 某 一 库存 优化 模型 ， 其 模型 内 的 周期 为 周 。 库 人 存 计算 公式 如 下 : 


第 周期 末 的 库存 = 第 i 周期 初 


的 库存 + 本 周 进货 量 - 本 周 出 货 量 


= 第 (i-1) 周期 末 的 库存 + 本 周 进货 量 -本 周 出 货 量 


在 该 优化 模型 的 代码 中 ， 参 数 T 为 模型 考虑 的 周期 个 数 ， 变 量 inv、order 与 Sell 分别 表示 库存 量 、 订 货 量 与 出 货 量 ， 参 数 inv0 为 起 始 库存 量 。 约 束 条 件 iflow 表 示 上 述 库存 计算 公式 。 由 于 初始 阶段 (第 1 
的 库存 量 是 inv0， 因 此 ， 必 须 对 i= 1 与 j> 1 分 开 考 虑 。 在 这 种 情况 下 ， 可 以 使 用 条 件 语句 区 分 不 同 的 j 取 值 ， 具 体 代 码 如 下 : 


proc optmodel; 
number T; 





var inv{lhttp://www.hzcourse.com/resource/readBook?pa 
number sell{lhttp://www.hzcourse.com/resource/read 


number 1nv0， 
/* 其 他 代码 */ 


eon Lt low{tLi Ln Lhttp: 





inv[i] = order[i] =- sell[i] + 









































//www.hzcourse.com/resource/readl 

















fF i=1 then i 





nvO else inv[i-1]; 





1 
/* 其 他 代码 */ 
quit; 


(9) ININOTIN 表 达 式 


th=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/..T}, order{lhnttp://www.hzcourse.com/resource/read 
Book?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/..T}; 





Book?path=/openresources/teach ebook/uncompressed/15092/0R] 


BPS/Text/..T}: 





在 PROC OPTMODEL 中 ，ININOTIN 表 达 式 的 作用 是 判定 元 素 是 属于 某 个 集合 ， 其 形式 如 下 : 








Book?patt 


表达 式 IN 集合 
表达 式 NOTIN 集合 

















如 果 表 达 式 在 集合 中 ， 那 么 “表达 式 IN 集 合 ” 返 回 值 为 1; 返回 值 为 0。 类 似 地 ， 如 果 表 达 式 不 在 集合 中 ， 那 么 “表达 式 NOTIN 集 合 ” 返 回 值 为 1; 返回 值 为 0。 例 如 ， 以 下 代码 中 ， 两 个 
PUT 语句 的 输出 结果 均 为 1。 


proc optmodel; 
set<string> DESTINATION = {' 福 州 '"，' 泉 州 '"，' 厦 门 '}; 
put ("福州 ， N DESTINATION); 
put (' 北 京 ' NOTIN DESTINATION); 

quit; 



























































(10) MAX|MIN 集 成 表达 式 


在 PROC OPTMODEL 中 ，MAX 集 成 表达 式 与 MIN 集 成 表达 式 是 与 集合 连用 的 ， 作 用 是 返回 集合 中 所 有 项 代入 表达 式 后 的 最 大 值 与 最 小 值 。 其 语法 如 下 : 


MAX {集合 } 表 达 式 
MIN {集合 } 








在 以 下 代码 中 ， 表 达 式 为 虚拟 参数 的 倒数 ， 因 此 ，MAX 集 成 表达 式 返 回 值 0.5，MIN 集 成 表达 式 返 回 值 为 0.2。 


proc optmodel; 
put (max{i in 2http://www.hzcourse.com/resource/readBook?path=/openresources/i 
put (min{i in 2http://www.hzcourse.com/resource/readBook?path=/openresources/ 


quit; 





ach ebook/uncompressed/15092/0EBPS/Text/..5} 1/i); 
ach ebook/uncompressed/15092/0EBPS/Text/..5} 1/i); 
























































(11) PROD 集 成 表达 式 


在 PROC OPTMODEL 中 ，PROD 集 成 表达 式 用 于 返回 所 有 项 对 应 集合 表达 式 取 值 的 积 。 其 语法 如 下 : 








PROD { 索 引 集 } 集 合 表 达 式 


如 果 索 引 集 为 空 集 ， 那 么 PROD 表 达 式 的 返回 值 为 0。 在 下 面 的 代码 中 ，PROD 表 达 式 计算 从 1 到 n 的 连 乘 ， 因 此 ， 其 输出 结果 为 120。 


proc optmodel; 




















number n =5; 
put (prod{i in lhnttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/..5} i); 
quit; 


(12) SLICE 表 达 式 


在 PROC OPTMODEL 中 ，SLICE 表 达 式 用 于 返回 一 个 低 维 的 索引 集 ， 其 语法 如 下 : 





SLICE (< 元 素 1， 元 素 2，...， 元 素 n>， 和 集合) 











表达 式 中 前 半 部 分 “元 素 1”、“ 元 素 2”、...、“ 元 素 n” 等 的 取 值 必 须 是 数值 表达 式 、 字 符 表达 式 或 者 “*”， 且 至 少 包 含 一 个 “* 。 新 生成 的 索引 集 的 维 数 由 “*” 的 个 数 决 定 。 


在 如 下 代码 中 ，ROUTE 表 示 的 是 所 有 路 线 的 集合 。 表 达 式 “slice (< 北京 ,*> ，ROUTE) ”的 作用 是 ,抽取 ROUTE 所 有 出 发 地 为 “北京 ”的 路 线 的 终点 。 第 二 个 SLICE 表 达 式 的 作用 是 ， 抽 取 在 所 有 
ROUTE 中 ， 终 点 位 置 为 “厦门 ”的 出 发 地 组 成 的 集合 。 在 第 三 个 PUT 语句 中 ，SLICE 抽 取 了 所 有 第 二 个 位 置 为 2 的 元 素 的 其 余 位 置 ， 组 成 了 新 的 集合 。 


proc optmodel; 
set<string, string> ROUTE ={<' 北 京 ',' 福 州 '>, <' 北 京 ',' 泉 州 '>, <' 北 京 ', ' 厦 门 '>， 

<!' 保 定 ',' 福 州 '>, <' 保 定 ', ' 景 州 '>,<' 保 定 ',' 厦 门 '>}; 
set<string> DESTINATION1 = slice (<' 北 京 '，*>,， ROUTE 
put DESTINATION1; *first put statement; 

t<string> DESTINATION2 = slice (<*,，' 厦 门 '>，ROUTE); 
put DESTINATION2; *second Put statement; 

t (slice(<*,2, *>, {<1, 2, 3>, <2, 3, 4>, <5, 2, 6>})); *third put statement; 











Ed 
~ 一 
~ 







































































执行 上 述 代 码 ， 第 一 个 PUT 语句 的 输出 结果 为 : 





{' 福 州 ', "泉州 7 厦门") 














第 二 个 PUT 语 句 的 输出 结果 为 : 


{' 北 京 ',' 保 定 '} 


第 三 个 PUT 语 句 的 输出 结果 为 : 


{<1, 3>, <5, 6>} 


(13) UNION 表 达 式 


在 PROC OPTMODEL 中 ，UNION 表 达 式 的 作用 是 返回 两 个 集合 的 并 集 ， 即 由 两 个 集合 中 所 有 不 重复 的 元 素 组 成 的 集合 ， 其 语法 如 下 : 


集合 1 UNION 集合 2 





例如 ， 有 以 下 代码 : 


proc optmodel; 
set<string> ORIGIN1= {' 北 京 '，' 保 定 '}; 
set<string> ORIGIN2 = {' 石 家 庄 ',' 北 京 '}; 
Put (ORIGIN1 UNION ORIGIN2); 

GT 

































































其 输出 的 结果 为 : 








{' 北 京 ',' 保 定 ',' 石 家 庄 '} 





(14) WITHIN 表 达 式 


在 PROC OPTMODEL 中 ，WITHIN 表 达 式 的 作用 是 判断 一 个 集合 是 否 包 含 在 另外 一 个 集合 中 ， 其 语法 如 下 : 


集合 1 WITHIN 和 集合 2 








如 果 集 合 1 包含 在 集合 2 中 ， 那 么 返回 值 为 1;， 反 之 ， 返 回 值 为 0%。 此 外 ，WITHIN 表 达 式 还 可 以 与 关键 字 NOT 联 用 ， 语 法 如 下 : 








集合 1 NOT WITHIN 集合 2 





关键 字 NOT 表 示 对 结果 取 反 : 原先 返回 值 为 1 的 ， 使 用 NOT 以 后 返回 值 为 0; 原 先 返 回 值 为 0 的 ,使 用 NOT 以 后 返回 值 为 1。 例 如 ， 以 下 代码 中 ， 第 一 个 PUT 语 句 的 输出 结果 为 1， 第 二 个 PUT 语 句 的 输出 
结果 为 0， 第 三 个 PUT 语句 的 输出 结果 为 1。 


proc optmodel; 
set<string> ORIGIN1= {' 北 京 '，' 保 定 '}; 
set<string> ORIGIN2= {' 北 京 '}; 
set<string> ORIGIN3= {' 北 京 '，' 厦 门 '}; 
put (ORIGIN2 within ORIGIN1); *first put statement; 
put (ORIGIN3 within ORIGIN1)” *second put statement; 
put (ORIGIN3 NOT within ORIGIN1); *third put statement; 

















































































































(15) SETOF 集 成 表达 式 


在 PROC OPTMODEL 中 ，SETOF 集 成 表达 式 必 须 和 集合 连用 ， 作 用 是 根据 表达 式 对 索引 集中 的 项 一 一 进行 计算 或 处 理 ， 并 返回 结果 。SETOF 集 成 表达 式 的 语法 如 下 : 


ETOF{ 索 引 集 } 表 达 式 


CD 





例如 ,假设 ARCS 是 从 出 发 地 到 目的 地 的 路 线 。 如 果 想 要 得 到 所 有 出 发 地 的 集合 FROM ， 那 么 得 用 SETOF 集 成 表达 式 ， 具 体 代码 如 下 : 


proc optmodel; 
set<str，str> ARCS =/ < 北京 ,海南 >，< 天 津 ， 广 州 >/; 
set<str> FROM = setof{<i, Jj> in ARCS}<i>; 
put FROM; 

duit; 



































在 上 述 代码 中 ，SETOF 集 成 表达 式 会 对 ARCS 中 的 每 一 个 项 都 进行 处 理 一 一 抽取 ARCS 的 第 一 个 坐标 。 因 此 ， 集 合 FROM 的 值 为 : 





("北京 '，' 天 津 


i 


表达 式 中 的 计算 也 可 以 是 多 维 的 。 例 如 ， 以 下 代码 中 ， 对 于 每 一 个 项 i， 都 进行 一 次 多 维 计算 。 


proc optmodel; 
put (setof{i in lhnttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/..3}<i, i*i, i**3>); 


quit; 























运行 上 述 代码 ， 输 出 结果 如 下 : 
{<1, 1, 1>, <2, 4, 8>, <3, 9, 27>} 


后 面 将 会 介绍 更 多 有 关 流 程控 制 以 及 索引 集 处 理 的 例子 。 


22.2 ”模型 的 更 新 
模型 的 更 新 主要 包含 两 个 方面 ， 一 方面 是 对 模型 的 现 有 约束 条 件 进行 探索 和 简化 ， 以 达到 提高 求解 效率 的 目的 ;， 另 一 方面 是 更 新 模型 中 的 参数 、 决 策 变量 、 约 束 条 件 或 者 目标 函数 ， 重 新 进行 求解 。 


22.2.1 ”使 用 预 求解 器 


一 般 来 说 ， 优 化 问题 包含 的 约束 条 件 越 多 越 不 容易 求解 ， 而 且 问 题 的 约束 条 件 之 间 可 能 存在 着 相互 包含 的 关系 。 在 求解 过 程 中 ， 如 果 能 够 去 掉 “ 宛 余 ” 的 约束 条 件 或 者 简化 现 有 的 约束 条 件 ， 可 能 会 提 
高 求解 的 效率 。 在 求解 过 程 中 ， 默 认 情况 下 ，PROC OPTMODEL 会 自动 调用 预 求 解 器 (PRESOLVER) 对 问题 中 的 线性 约束 (包括 决策 变量 的 边界 约束 ) 进行 预 处 理 ， 以 达到 对 模型 更 新 的 目的 。 预 处 理 包 
括 以 下 几 个 方面 : 


. 将 线性 约束 条 件 转 化 成 决策 变量 的 边界 约束 条 件 。 
. 通过 检查 约束 条 件 之 间 的 关系 ， 删 除 部 分 (或 全 部 ) “ 宛 余 ”的 约束 条 件 。 
. 将 取 值 固定 的 决策 变量 代入 约束 条 件 ， 以 简化 约束 条 件 。 


一 般 来 说 ， 对 于 小 规模 问题 ， 使 用 不 使 用 预 求解 器 对 求解 时 间 不 会 有 太 大 影响 。 但 是 当 问 题 规 模 较 大 时 ， 决 策 变 量 之 间 的 天 系 往往 会 变 得 很 复杂 ， 这 时 候 使 用 预 求解 器 可 能 会 提高 求解 效率 。 先 来 考虑 
以 下 几 个 约束 条 件 : 


根据 第 2 个 约束 条 件 ， 可 以 得 到 y<7-x。 如 果 第 1 个 约束 条 件 成 立 ， 那 么 第 3 个 约束 条 件 y<4 也 自然 成 立 。 也 就 是 说 ， 第 3 个 约束 条 件 包含 在 其 余 两 个 约束 条 件 中 ， 因 此 ， 理 论 上 ， 可 以 去 掉 第 3 个 约束 条 
件 : 


实际 中 ， 预 处 理 的 过 程 要 比 上 述 例子 复杂 得 多 。 事 实 上 ，PROC OPTMODEL 的 预 求 解 器 可 能 要 进行 多 轮 的 检查 ， 查 看 当前 约束 条 件 中 是 否 仍 然 包含 了 “元 余 ” 的 约束 条 件 或 者 可 简化 的 约束 条 件 
预 求解 器 的 语法 格式 比较 简单 ， 具 体 如 下 : 








SOLVE 





三 














TH LP/PRESOLVER = 关键 字 


其 中 ， 可 供 选 择 的 关键 字 有 : AUTOMATIC、NONE、BASIC、MODERATE、AGGRESSIVE。 


述 5 个 关键 字 也 可 以 分 别 使 用 数字 -1、0、1、2、3 代 蔡 。 指 定 不 同 的 关键 字 ， 预 处 理 的 程度 也 不 一 样 ， 将 上 述 5 个 关键 字 按照 预 处 理 层级 从 低 到 高 排列 如 下 : 




















NONE < BASIC < MODERATE < AUTOMATIC < AGGRESSIVE 


























OPTMODEL 求 解 时 间 = 预 求解 器 处 理 时 间 +OPTMODEL 对 预 处 理 后 模型 的 求解 时 间 


使 用 预 求解 器 缩短 的 是 上 述 公式 中 第 二 部 分 的 时 间 ， 但 是 同时 也 会 不 可 避免 地 增加 第 一 部 分 的 时 间 。 因 此 ， 在 某 些 情形 下 ， 虽 然 预 求解 器 “简化 ”了 约束 条 件 ， 但 整个 OPTMODEL 的 求解 时 间 反而 变 得 
更 长 。 因 此 ， 在 实际 运用 中 ， 应 该 结合 具体 问题 来 选择 合适 层级 的 预 求解 器 。 


需要 指出 的 是 ， 并 不 是 求解 所 有 的 带 线性 约束 的 问题 都 需要 进行 预 处 理 。 当 遇 到 以 下 两 种 情形 之 一 时 ， 不 应 该 考虑 使 用 预 处 理 : 


. 使 用 了 选项 BASIS=WARMSTART 时 。 该 选项 是 单纯 形 算法 的 一 个 选项 。 在 对 初始 模型 进行 更 新 时 ， 可 以 考虑 使 用 该 选项 。 该 选项 的 基本 思想 是 基于 原 问题 的 最 优 解 对 新 的 模型 进行 求解 。 由 于 充分 利 
用 了 原 问题 的 解 的 信息 ， 一 般 来 说 ， 求 解 效率 会 更 高。 


这 


` 使 用 选项 ITIS=ON 对 约束 条 件 的 不 可 行 性 进行 判断 。 这 里 的 IIS 集 (Irreducible Infeasible Set) 指 的 是 在 线性 规划 中 ， 由 若干 个 约束 条 件 (包含 变量 约束 ) 组 成 的 一 个 不 可 行 集 。ITS 集 的 特征 是 : 在 移 除 


IIS 集 中 的 任何 一 个 约束 条 件 后 ， 这 个 集合 就 不 再 是 一 个 不 可 行 集 。 通 常 来 说 ，IIS 集 可 能 不 止 一 个 。 选 项 IIS=ON 的 作用 就 是 找到 这 样 的 一 个 不 可 行 集 。 因 此 ， 在 使 用 该 选项 时 必须 要 禁用 预 求解 器 ， 以 防 预 
求解 器 移 除 任何 约束 条 件 。 该 选项 在 分 析 模型 求解 结果 为 无 可 行 解 的 情形 时 很 有 帮助 。 


若 遇 到 以 上 情形 ， 应 将 “PRESOLVER= 关 键 字 ” 中 的 关键 字 设 置 为 NONE 或 者 0。 
例 22.1: 假设 上 述 约束 条 件 中 的 目标 函数 为 f (Xx，y) =x+2*y。 现 在 要 分 别 指定 不 同 层级 的 预 求解 器 来 进行 求解 。 


示例 代码 如 下 : 


proc optmodel; 
var x>=3; 
Var y; 
con cl: y<=4; 
Con C2: xty<=7; 
max f=x+2*y; 
solve with lp/presolver = NONE; 
solve with lp/presolver = automatic ， 
quit; 


























运行 上 述 代 码 ， 输 出 的 日 志 如 图 22.3 所 示 。 从 图 中 可 以 看 出 ， 相 对 于 不 使 用 预 求解 器 ， 指 定 PRESOLVER=AUTOMATIC (系统 默认 选项 ) ， 预 求解 器 移 除 了 一 个 约束 条 件 
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The [Lp solver is eal lad. 
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图 22.3 ”指定 不 同 层 级 的 预 求解 器 日 志 对 比 


22.2.2 ”决策 变量 的 增加 、 固 定 与 限制 





在 建 模 时 ， 可 能 会 出 现 一 些 变化 ， 比 如 : 决策 变量 的 个 数 增加 ， 某 个 或 者 某 几 个 决策 变量 的 取 值 需要 进行 固定 ， 某 个 或 者 某 几 个 决策 变量 新 增加 了 上 限 或 者 下 限 的 约束 条 件 等 。 这 些 变化 都 可 能 导致 原 


来 的 模型 不 再 适用 ， 


需要 对 模型 进行 更 新 。 来 看 一 个 模型 更 新 的 例子 。 


假设 X 公 司 生产 4 种 产品 ， 分 别 记 为 A、B、C 和 D。 生 成 上 述 4 种 产品 所 需要 的 原材料 为 RI 和 R2。 在 上 述 4 种 产品 中 ， 生 产 每 单位 产品 所 需要 的 原材料 、 人 力 以 及 每 单位 产品 的 售 价 如 表 22.1 所 示 。 


表 22.1 生产 单位 产品 所 需要 的 原材料 、 人 力 以 及 单位 产品 售 价 


原材料 R1 原材料 R2 人 力 (小 时 ) 


单位 原材料 、 单 位 人 力 的 费用 以 及 每 种 资源 可 供 使 用 的 总 额 (包括 人 力 ) 如 表 22.2 所 示 。 


表 22.2 每 种 资源 的 单位 费用 以 及 可 用 资源 总 额 


原材料 R1 原材料 R2 
MT ww | ， 和 


以 下 代码 根据 表 22.1 以 及 表 22.2 的 信息 分 别 生 成 了 两 个 数据 集 product data 和 resource_data。 


售 价 
1100 
1000 
950 
1000 


人 力 (小 时 ) 
8 
1000 





data product 








data; 


input Item $ Selling Price RI1 R2 Labor; 


datalines; 

















run; 
data resource 
input Res 





data; 


ource $ Cost Amount Available; 


datalines; 


R1 10 1000 
R2 6 850 
Labor 8 1000 





run; 








情形 一 : X 公 司 设计 出 一 种 新 的 产品 E， 生 产 该 产品 所 需要 资源 与 目前 其 他 产品 的 生产 所 需要 的 原料 一 致 。 生 产 单位 产品 E 所 需 的 资源 以 及 售 价 如 表 22.3 所 示 。 


表 22.3 ”新 增产 品 忆 的 信息 


产品 原材料 R1 原材料 R2 人 力 (小 时 ) 售 价 
E 1000 


此 时 ， 应 该 如 何 制定 生产 计划 使 得 经 济 效益 最 大 化 ? 


原先 产品 的 种 类 只 有 4 种 ， 因 此 ， 模 型 中 的 对 应 决策 变量 个 数 为 4 个 。 现 产品 种 类 增加 到 5 种 ， 模 型 中 的 变量 个 数 也 由 原来 的 4 个 增加 到 了 5 个 。 因 此 ， 需 要 对 模型 进行 相应 的 调整 。 





例 22.2: 模型 更 新 (一 ) 决策 变量 的 增加 。 以 下 代码 在 读 入 原始 数据 集 后 ， 使 用 集合 运算 符 UNION 对 索引 集 PRODUCT 进 行 了 更 新 ， 并 更 新 了 数组 Required。 


proc optmodel; 
/* declare sets and parameters */ 
set<str> PRODUCTS, RESOURCE; 
num Cost{RESOURCE}, Availability{RESOURCE}; 
num Selling Price{PRODUCTS}; 
num Required{PRODUCTS, RESOURCE}; 
/* read data from SAS data sets */ 
read data resource data into Resource=[Resource] 
Cost Availability=Amount Available; 
read data product data into PRODUCTS= [Itemj] 
{r in RESOURCE} <Requiredl[item, r]=col (r)> 
Selling Price; 
Var x{PRODUCTS} >= 0; 
/* for {i in ITEMS: i = 'A'} fix x[i] = 40;*/ 
impvar Revenue = sum{p in PRODUCTS}Selling Price[pl*x[p]; 
impvar Amount Used{r in RESOURCE} = sum{p in PRODUCTS} Required[p, r]*x[p]; 
impvar Total Cost = sum{r in RESOURCE} Cost[r]*Amount Used[r]; 

次 












































































































































impvar Profit{p in PRODUCTS} ( Selling Price[p] - sum{r in RESOURCE} 
Cost[r]j*Required[lp, r] ) x[p]; 

/* declare constraints */ 

con Usage{r in RESOURCE}: 

Amount Used[r] <= Availability[r]; 

PRODUCTS = PRODUCTS union /E/; 












































Selling Pricel['E'] = 1000; 
Required['E', 'R1'] = 2; 
Required['E', 'R2'] = 4; 
Required['E', 'labor'] = 3; 


/* declare objective */ 
max Net Profit = Revenue - Total Cost; 
solve ;| 
六 二 这 
quit; 





代码 的 输出 结果 如 图 22.4 所 示 。 
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The OPTMODEL Procedure 
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图 22.4 新 增 变 量 后 模型 的 求解 结果 


需要 注意 的 是 ， 对 索引 集 添加 新 值 ， 必 须 在 READ 语 名 之后， 否则 程序 将 出 错 。 例 如 ， 在 上 述 代码 中 ， 假 定 将 语句 “PRODUCTS=PRODUCTS union/E/; ” 移 到 READ 语 名 前， 如下: 


proc optmodel; 


/* decl 





are sets and parame 
set<str> PRODUCTS, 











num Cost {RE 
ling Price{P 
RODUCTS, RE 





num Sel 


num Required{P 


PRODUCTS = 





read data reso 


,SOURCE } ， 














Availabili 


ters */ 
RESOURCE; 

















PRODUCTS 





RODUCTS}} 


ty{RE 











'SOURCE 


}; 








union /E/; 


urce data into Resource= 


,SOURCE }; 


[Resource] 


/ 玉 火 米 久 火炎 炎 火 火炎 火炎 炎炎 火 业 火炎 炎炎 火 天 火炎 炎炎 火炎 类 其 他 代码 x*** 六 类 米 关 业 米 久 炎 业 久 炎炎 业 炎 火 业 火炎 业 火 火 业 火炎 业 火 火 业 火炎 业 / 


Cost Availability=Amount Available; 





deme 


运行 上 述 代码 ，PROC OPTMODEL 在 日 志 中 将 输出 如 下 错误 信息 


Error: 


对 于 上 述 


术 决 策 变量 的 增加 ， 我 们 进行 


了 模型 的 更 新 ， 


决 于 实际 情况 ， 读 者 可 以 选择 其 中 的 一 种 方法 进行 处 理 。 


1.FIX 语 句 与 UNFIX 语 名 


情形 二 : 


产 计划 使 得 利润 最 大 化 ? 


与 原来 问题 相 比 ， 产 品 B 和 产品 C 的 生产 数量 固定 了 ， 


The Location ‘PRODUCTS” has no value at 行 31 列 9。 


X= (XA， XP， Xe, XD， Xr) 二 (XA, 30 ， 40， XD， Xr) 


该 模型 可 行 解 的 形式 如 下 : 


其 中 ，XA，XB，Xc，XD 与 XE 分 别 代表 产品 A、B、C、D 以 及 E 的 生产 数量 。 


当 我 们 需要 固定 某 个 或 者 某 几 个 


这 种 处 理 方法 并 未 涉及 对 原始 数据 集 的 修改 。 


在 情形 一 的 计算 结果 中 ，B 和 (人 的 计划 生产 数量 为 0。 公 司 管理 人 员 认 为 这 不 太 符合 市 场 需 


决策 变量 取 值 时 ， 可 以 考虑 使 用 FIX 语 句 。FIX 语 句 的 一 般 形式 如 下 : 


另 一 种 处 理 方 法 是 : 不 对 模型 进行 


修改 ， 而 是 对 原始 数据 集 进 行 一 


些 操作 (如 新 增 观测 ) 。 具 体 得 


， 会 引起 客户 的 流失 。 为 此 ， 决 定 将 B 和 (C 的 生产 数量 定 为 30 和 40。 在 这 种 情况 下 ， 应 该 如 何 制定 生 





HH 





IX 变量 [索引 集 的 项 ] [ 





其 中 : 


变量 的 个 数 可 以 是 多 个 ， 多 个 


. 若 表 达 式 缺失 ， 那 么 


= 表达 式 ] 


变量 的 值 将 被 国定 为 该 


变量 的 当 


变量 之 间 用 空格 隔 开 。 值 得 注意 的 是 ， 在 这 种 情 


前 值 。 例 如 ， 


况 下 ， 


.如果 省 略 索 引 集 的 项 ，FIX 语 名 固定 的 是 整个 数组 变量 。 以 上 面 模型 的 解 又 为 例 ， 语 撮 FIXX[B]1=30 仅 将 数组 


变量 的 赋值 是 一 样 的 (均等 于 表达 式 的 计算 结果 ) 


若 紧 接着 SOLVE 语 句 之 后 提交 FIX 语 句 ， 那 么 


a2 


变量 


值 将 会 


变量 X 中 X[B] 的 值 固定 为 30， 而 语句 FIX X=30 则 将 数组 


被 固定 为 当前 最 优 解 。 


UNFIX 语 句 执行 的 是 与 FIX 语 句 相反 的 操作 一 一 取消 对 决策 变量 的 固定 。 其 语法 格式 、 使 用 方法 与 FIX 语 句 一 致 ， 这 里 就 不 重复 介绍 了 。 


例 22.3: 模型 更 新 (二 ) 一 一 使 用 FIX 语 句 对 决策 变量 的 取 值 进 
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quit; 





fit = Revenue - Total Cost; 


} Cost[r 
( Selling Price[p] - 


[Resource] 


[i] = 40;*/ 
ling Price[pl*x[p]; 

sum{p in PRODUCTS} Requiredl[p, r]*x[pl]; 
]*Amount Used [ 工 
sum{r in RE 


]; 








'SOURCE 








行 固定 。 下 面 的 代码 在 考虑 将 产 


} 


品 B 与 产品 C 的 生产 数量 


。 如 果 多 个 变量 要 分 别 赋 给 


变量 中 所 有 的 变 


给 不 同 的 值 ， 可 以 使 用 多 个 FIX 语 


量 都 固定 为 30 了 。 


分 别 固定 为 30 和 40 的 情况 下 ， 对 模型 进行 更 新 、 求 解 。 





\ 一 ZX 一 


上 述 代码 ， 输 出 结果 如 图 22.5 所 示 。 
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图 22.5 ”使 用 FIX 语 句 后 模型 的 输出 结果 


2http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/OEBPS/Text/..UB 下 级 与 .LB 下 绥 


情形 三 : 在 情形 二 中 的 最 优 解 中 ，D 的 生产 数量 为 126.667。 经 过 研究 ， 公 司 认为 生产 计划 中 ， 产 品 D 的 数量 不 应 该 超过 100 个 ， 产 品 A 的 数量 和 产品 E 的 数量 不 得 少 于 20 个 。 在 这 种 情形 下 ， 应 该 如 何 制 
定 生 产 计划 使 得 利润 最 大 化 ? 

例 22.4: 模型 更 新 (三 ) 一 一 使 用 .UB 以 及 .LB 对 变量 的 上 限 以 及 下 限 进行 设置 。 以 下 代码 在 FIX 语 句 之 后 ， 使 用 .UB 下 缀 以 及 .LB 下 缀 分 别 设置 了 产品 D 的 产量 上 限 以 及 产品 A、E 的 产量 下 限 ， 从 而 对 情形 
三 进行 建 模 求解 。 





proc optmodel; 
/* declare sets and parameters */ 
set<str> PRODUCTS, RESOURCE; 
num Cost{RESOURCE}, Availability{RESOURCE}; 
num Selling Price{PRODUCTS}; 
num Required{PRODUCTS, RESOURCE}; 
/* read data from SAS data sets */ 
read data resource data into Resource=[Resource] 
Cost Availability=Amount Available; 
read data product data into PRODUCTS= [Itemj] 
{r in RESOURCE} <Requiredl[item, r]=col (r)> 
Selling Price; 
var x{PRODUCTS} >= 0; 
impvar Revenue = sum{p in PRODUCTS}Selling Price[pl*x[p]; 
impvar Amount Used{r in RESOURCE} = sum{p in PRODUCTS} Required[p, rl]*x[p]; 
impvar Total Cost = sum{r in RESOURCE} Cost[r]*Amount Used[r]; 
impvar Profit{p in PRODUCTS} = ( Selling Price[P] - sum{r in RESOURCE} 
Cost[r]j*Required[p, r] ) * x[pl]; 
/* declare constraints */ 
con Usage{r in RESOURCE}: 
Amount Used[r] <= Availability[r]; 
PRODUCTS = PRODUCTS union /E/; 

























































































































































































Selling Pricel['E'] = 1000; 
Required['E', 'R1'] = 2; 
Required['E', 'R2'] = 4; 
Required['E', 'Labor'] = 3; 











/* declare objective */ 
max Net Profit = Revenue - Total Cost; 


























fix x['B'] = 30; 
Fix x['C'] = 40; 
x['D'] .ub = 100; 
x['A'] .lb = 20; 
x['E'] .lb = 20; 
solve } 

print x; 

print amount used; 

quit; 





运行 上 述 代 码 ， 输 出 结果 中 的 最 优 值 以 及 最 优 解 如 图 22.6 所 示 。 
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图 22.6 ”使 用 .LB 以 及 .UB 下 级 后 模型 的 输出 结果 


从 图 22.6 可 以 看 出 ， 在 最 优 解 中 ， 产 品 A 和 E 的 数量 的 确 超过 了 20 个 、 产 品 D 的 数量 下 降 到 了 100 个 (达到 上 限 ) 。 


22.2.3 ”约束 的 改变 与 放松 


情形 四 : 在 情景 三 的 基础 上 ， 进 一 步 假设 有 一 批 额 外 的 原材料 R1 可 以 利用 ， 总 量 不 超过 200 个 单位 ， 这 批 额外 的 原材料 每 单位 成 本 较 存 库 里 的 原材料 成 本 上 升 0.5 元 。 在 这 种 情况 下 ， 应 该 如 何 制定 生产 
计划 使 得 利润 最 大 化 ? 


例 22.5: 模型 更 新 (四 ) 一 一 修改 约束 条 件 。 这 里 对 模型 进行 如 下 更 新 : 定义 新 的 变量 extra_r1， 更 改 模型 中 资源 的 约束 条 件 Usage 以 及 总 成 本 Total_Cost， 并 输出 资源 的 使 用 量 amount_used。 具 体 


代码 如 下 所 示 : 


proc optmodel; 
/* declare sets and parameters */ 
set<str> PRODUCTS, RESOURCE; 
num Cost{RESOURCE}, Availability{RESOURCE}; 
num Selling Price{PRODUCTS}; 
num Required{PRfiODUCTS, RESOURCE}; 
/* read data from SAS data sets */ 
read data resource data into Resource=[Resource] 
Cost Availability=Amount Available; 
read data product data into PRODUCTS= [Itemj] 
{r in RESOURCE} <Required[item, r]=col (r)> 
Selling Price; 

Var x{PRODUCTS} >= 0; 

Var extra rl >=0<=200; 

impvar Revenue = sum{p in PRODUCTS}Selling Price[pl*x[p]; 

impvar Amount Used{r in RESOURCE} = sum{p in PRODUCTS} Required[p, r]*x[p]; 

impvar Total Cost = sum{r in RESOURCE} Cost[r]*Amount Used[r]+0.5*extra rl ; 

大 


















































































































































impvar Profit{p in PRODUCTS} ( Selling Price[p] - sum{r in RESOURCE} 















































Cost[r]j*Required[lp, r] ) x[p]; 
/* declare constraints */ 
con Usage{r in RESOURCE}: 
Amount Used[r] <= Availabilityl[r] + if (r='R1') then extra rl; 
PRODUCTS = PRODUCTS union /E/; 
Selling Pricel['E'] = 1000; 
Required['E', 'R1'] = 2; 
Required['E', 'R2'] = 4; 
Required['E', 'Labor'] = 3; 














/* declare objective */ 
max Net Profit = Revenue - Total Cost; 























fix x['B'] = 30; 
fix 区 | S40s 
x['D'] .ub = 100; 
xX['A'l .lb = 20; 
x['E'] .1b = 20; 
solve } 

PELNEtG 文 


print amount used; 
print extra rl; 
print Availability ; 





运行 上 述 代 码 ， 输 出 结果 中 的 最 优 解 、 目 标 函 数 最 优 值 以 及 资源 使 用 情况 Amount_Used 如 图 22.7 所 示 。 
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图 22.7 修改 约束 条 件 Usage 后 模型 的 最 优 解 与 最 优 值 


从 Amount_Used 的 使 用 情况 可 以 看 出 ， 人 力 资源 并 没有 得 到 充分 利用 (可 供 支配 的 Labor 共 有 1000 小 时 ) 。 此 外 ，R1 与 R2 均 已 达到 上 限 。 为 了 使 得 人 力 资源 得 到 进一步 的 利用 ， 现 假设 R2 的 资源 没有 
上 限 。 在 这 种 情况 下 ， 应 该 如 何 制定 生产 计划 使 得 利润 最 大 化 ? 


情景 五 : 假设 R1 的 约束 条 件 与 上 例 相 同 。 若 暂 不 考虑 原材料 R2 的 约束 ， 超 过 库存 部 分 的 原材料 RR&， 每 单位 成 本 不 变 。 为 了 使 得 人 类 资源 得 到 进一步 发 挥 ,该 如 何 制 定 生 产 计划 ? 


情景 五 实际 上 放松 了 与 R2 相 关 的 约束 条 件 。 在 PROC OPTMODEL 中 ， 放 松 约束 条 件 可 以 通过 DROP 语 句 实现 。 使 用 该 语句 可 放松 指定 的 一 个 或 者 一 组 约束 ， 其 使 用 语法 如 下 : 





DROP 约束 [索引 集 的 项 ] ; 





其 中 : 
.如果 语句 省 略 索引 集 的 项 ， 那 么 DROP 语 名 放松 整个 约束 组 。 
" 如果 有 多 个 约束 组 ， 那 么 约束 组 用 空格 隔 开 。 


例 22.6: 模型 更 新 (五) 一 一 放松 约束 条 件 。 考 虑 情形 五 ， 对 上 例 中 的 模型 进行 如 下 更 新 ， 修 改变 量 Total_Cost， 放 松 约束 条 件 Usage 中 与 R2 相 关 的 部 分 。 具 体 代码 如 下 : 


proc optmodel; 
/* declare sets and parameters */ 
set<str> PRODUCTS, RESOURCE; 
num Cost{RESOURCE}, Availability{RESOURCE}; 
num Selling Price{PRODUCTS}; 
num Required{PRODUCTS, RESOURCE}; 
/* read data from SAS data sets */ 
read data resource data into Resource=[Resource] 
Cost Availability=Amount Available; 

read data product data into PRODUCTS= [Itemj] 
{ in RESOURCE} <Requiredl[item, r]=col ( 工 ) > 
Selling Price; 

var x{PRODUCTS} >= 0; 

Var extra rl >=0<=200; 

impvar Revenue = sum{p in PRODUCTS}Selling Price[pl*x[p]; 

impvar Amount Used{r in RESOURCE} = sum{p in PRODUCTS} Required[p, r]*x[p]; 

impvar Total Cost = sum{r in RESOURCE}Cost[r]*Amount Used[r]+0.5*extra rl; 

impvar Profit{p in PRODUCTS} = ( Selling Price[P] - sum{r in RESOURCE} 
Cost[r]j*Required[p, r] ) * x[lpl]; 

/* declare constraints */ 

con Usage{r in RESOURCE}: 

Amount Usedl[r] <= Availability[r] + if (r='R1') then extra rl } 

PRODUCTS = PRODUCTS union /E/; 

Selling Price['E'] = 1000; 








































































































































































































Required['E', 'R1'] = 2; 
Required['E', 'R2'] = 4; 
Required['E', 'Labor'] = 3; 





/* declare objective */ 
max Net Profit = Revenue - Total Cost; 


























fix x['B'] = 30; 
fix x['C'] = 40; 
x['D'] .ub = 100; 
x['A'] .lb = 20; 
x['E'] .lb = 20; 
drop Usage['R2 1]:; 
solve } 

BELAt x 

print amount used; 

quit; 
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图 22.8 ”放松 约束 条 件 后 模型 的 输出 结果 


从 上 述 输出 结果 可 以 看 出 ， 由 于 放松 R2 的 限制 ， 使 Labor 值 达到 了 上 限 ， 即 人 力 资源 得 到 了 充分 利用 。 


22.3 ”网 络 流 模型 





在 PROC OPTMODEL 中 ， 常 见 的 用 于 求解 线性 规划 的 算法 有 原始 单纯 形 法 、 对 偶 单纯 形 法 和 内 点 法 等 (上述 3 种 方法 详 见 第 20 章 ) 。 本 节 要 介绍 的 是 PROC OPTMODEL 中 的 另外 一 种 算法 一 一 网 络 单 


纯 形 算法 (Network Simplex Algorithm) 。 
22.3.1 ”网 络 流 模型 概述 


在 优化 中 ， 一 个 网 络 是 由 若干 个 节点 及 一 些 连接 两 节点 间 的 弧 组 成 的 。 在 实际 应 用 中 ， 有 些 待 研 究 的 问题 可 以 用 网 络 来 描述 : 节点 代表 问题 中 的 研究 对 象 ， 弧 描述 的 是 对 象 之 间 的 关系 。 例 如 ， 从 A 地 
到 B 地 的 所 有 可 能 航空 路 线 构 成 了 一 个 网 络 : 节点 是 从 A 地 到 B 地 的 所 有 可 能 线路 上 的 城市 ， 当 两 个 节点 之 间 存 在 一 个 直达 的 航线 时 ， 我 们 称 这 两 个 节点 之 间 存 在 一 条 弧 。 网 络 不 仅 可 以 用 来 描述 实体 的 网 络 
结构 ， 还 可 以 用 来 描述 关系 型 网 络 ， 甚 至 可 以 描述 某 个 对 象 的 历史 。 例 如 ， 某 大 学 的 教学 秘书 在 学 期 初 需 要 根据 本 学 期 的 教学 任务 ， 安 排 教师 的 教 课 计划 。 在 这 种 情形 下 ， 教 师 以 及 课程 构成 了 一 个 关系 型 
网 络 图 ， 网 络 中 的 节点 代表 了 教师 以 及 课程 ， 弧 描述 的 是 两 个 节点 之 间 是 否 存 在 教学 关系 (教师 教 某 课程 ) 。 又 如 ， 某 汽车 品牌 的 4S 店 的 历史 月 末 库 存 水 平 也 可 以 用 网 络 来 描述 : 节点 为 历史 上 每 月 的 库存 
水 平 、 上 游 供应 商 以 及 消费 者 (看 成 一 个 节点 ) ， 弧 可 用 来 描述 节点 间 是 否 存 在 供 或 求 天 系 。 


弧 不 仅 可 以 用 来 描述 “存在 与 不 存在 ”的 关系 ， 还 可 以 给 弧 赋予 方向 和 权重 。 比 如 ， 考 虑 上 述 从 A 地 到 B 地 的 路 线 图 ， 弧 的 方向 即 为 飞机 在 两 个 节点 (城市 ) 之 间 的 航行 方向 ， 权 重 则 可 以 设置 为 两 个 节 
点 之 间 的 机 票 价格 。 


考虑 一 类 具有 特殊 结构 的 网 络 ， 该 网 络 具 有 如 下 特征 : 
. 网 络 中 的 孤 带 有 方向 性 。 

.网络 节点 中 ， 存 在 两 个 特殊 的 节点 。 

. 网 络 中 每 一 条 弧 都 对 应 着 一 个 非 负 值 。 


上 述 网 络 中 ， 两 个 特殊 的 节点 分 别称 为 源 (起 始点 ) 与 汇 (终点 ) ， 每 条 有 向 弧 对 应 的 非 负 值 称 为 该 弧 的 容量 。 进 一 步 ， 考 虑 定义 在 有 向 弧 上 的 一 个 非 负 函 数 ， 对 于 每 一 个 特定 的 有 向 弧 ， 该 非 负 函 数 
的 取 值 不 超过 该 弧 的 容量 。 我 们 称 该 非 负 浮 数 为 定义 在 弧 上 的 可 行 流 。 这 种 带 “ 流 ”的 网 络 也 称 网 络 流 。 例 如 ， 有 一 批 货物 要 从 A 地 发 送 到 B 地 ， 那 么 从 A 地 到 B 地 的 所 有 可 能 路 线 就 组 成 一 个 网 络 。 节 点 A 为 
源 ， 节 点 B 为 汇 ， 每 条 弧 都 是 有 向 弧 ， 每 一 条 路 线 都 有 一 定 的 容量 ,可行 流 可 以 定义 为 经 由 某 条 具体 航线 ( 弧 ) 运送 的 货物 数量 。 

在 考虑 网 络 流 的 模型 中 ， 要 注意 隐 含 的 约束 条 件 。 除 了 每 个 节点 上 的 流 可 能 有 上 限 的 约束 外 ， 还 要 考虑 流 的 平衡 问题 ， 即 节点 上 流入 量 与 流出 量 是 平衡 的 。 值 得 注意 的 是 ， 平 衡 既 可 以 指 流 出 量 不 超过 
流入 量 ， 也 可 以 指 流出 量 等 于 流入 量 ， 平 衡 的 具体 定义 主要 取决 于 实际 问题 。 


假设 有 任 一 网 络 流 ， 如 图 22.9 所 示 。 图 中 显示 的 是 某 节 点 Kk 上 的 流 ， 变 量 名 称 以 及 意义 分 别 如 图 中 所 示 。 


并 出 Flow Out[k] 


= 





emand| 长 | 


图 22.9 ”节点 上 的 流 的 约束 





若 节 点 上 的 流 是 平衡 的 ， 现 将 该 平衡 关系 以 PROC OPTMODEL 的 语法 形式 表示 ,如 下 (NODES 是 节点 的 索引 集 ) : 





Con Flow Balance{k in NODES } : 
Flow In[klt+supply[k] = Flow Out[k] + Demand[k]; 

















除了 节点 的 流 有 约束 以 外 ， 节 点 本 身 的 容量 可 能 也 是 有 限制 的 。 假 设 节点 kK 容 量 的 上 限 为 Capacity[k]。 那 么 ,该 约束 可 以 写成 : 








Con Capacity{k in NODES}: 
Flow In[kl+supply[k] <= Capacity[k]; 








22.3.2 ”使 用 OPTMODEL 求 解 网 络 流 模型 


往往 


在 PROC OPTMODEL 中 ， 网 络 流 模 型 的 求解 可 以 通过 调用 的 网 络 单纯 形 求解 器 (Network simplex solver) 来 实现 。 由 于 考虑 了 网 络 的 特殊 结构 ， 使 用 网 络 单纯 形 求解 器 对 网 络 流 模型 进行 求解 


较 其 他 求解 器 的 效率 要 高 。 调 用 网 络 单纯 形 求 解 器 的 命令 如 下 : 


solve with lp / solver=ns; 





下 面 以 一 个 例子 来 说 明 如 何 建立 网 络 模型 ， 并 调用 网 络 单纯 形 求解 器 对 模型 求解 。 
公司 在 美国 境内 设 有 3 个 中 转 站 ， 在 中 国境 内 也 有 若干 中 转 站 。 现 有 一 批 货物 需要 从 多 伦 多 转运 到 北京 ， 路 线 图 信息 如 图 22.10 所 示 。 
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图 22.10 ”转运 路 线 图 


转运 图 中 的 各 路 线 的 费用 如 下 所 示 : 


data route; 
input Origin $13. Destination $14.cost; 
datalines; 

Toronto Chicago 105 

Toronto Los Angel 120 














Toronto San Francisco 135 














Chicago ShangHai 600 
Chicago TianJin 621 
Los Angel ShangHai 680 
Los Angel TianJin 650 
Los Angel HongKong 610 
San Francisco TianJin 710 
San Francisco HongKong 650 
ShangHai BeiJing 55 
TianJin BeiJing 45 
HongKong BeiJing 100 
run; 


OC WIEYTTABLE: York. Route 








转运 图 中 各 个 节点 现 有 的 剩余 库容 如 下 : 


data capacity; 
input Warehouse $13. Capacity; 











datalines; 
Toronto 1500 
Chicago 300 
Los Ande] 350 
San Francisco 200 
HongKong 400 
ShangHai 300 
TianJin 300 
BeiJing 2000 


r 
run; 


假设 有 800 吨 的 货物 要 从 多 伦 多 发 往 北京 ， 基 于 上 述 的 物流 路 线 图 、 费 用 以 及 库容 ， 应 该 如 何 设 计 路 线 ， 才 能 使 得 总 费用 最 小 ”最 小 费用 是 多 少 ? 
对 于 上 述 问题 ， 对 于 网 络 结构 中 的 每 一 个 节 





某 个 节点 的 流 的 上 限 是 剩余 库容 。 


节点 上 流 的 平衡 。 


在 考虑 上 述 约束 的 前 提 下 ， 模 型 的 目标 是 要 使 得 费用 最 小 。 


定义 如 下 参数 以 及 变量 。 


.参数 Costf，j]: 从 i 到 j 的 费用 。 


点 K， 要 考虑 如 下 两 个 约束 : 


* 参数 Demand 人 区]: 第 k 个 节点 的 需求 。 当 节点 为 北京 时 ， 取 值 为 800， 否 则 为 0。 


“ 参数 Supply 区 ]: 第 k 个 节点 的 供应 。 当 节点 为 多 伦 多 时 ， 取 值 为 800， 否 则 为 0。 


“ 参数 Capacity 区 ]: 第 k 个 节点 的 库容 。 


" 变量 xE, j]: 


经 由 节点 i 发 往 节 点 j 的 货物 数量 。 


将 上 述 目 标 以 及 约束 以 数学 公式 描述 为 如 下 形式 : 


使 得 


min 


pa Costlii lx[il 


<ij> E ARCS 


Flow In[kJ]+Supply[k]=Flow_ Out[kJ]+Demand[k], kENodes 


Flow In[k]+Supply[k]<Capacity[k], kENodes 


其 中 ， 索 引 集 Nodes 与 ARCS 分 别 对 应 网 络 图 中 的 节点 (各 中 转 站 、 多 伦 多 与 北京 ) 与 弧 (路 线 ) 。 


根据 以 上 模型 ， 可 以 使 用 PROC OPTMODEL 对 其 进行 求解 。 具 体 代码 如 下 : 





proc optmodel; 
/* declare sets and parameters */ 


Se 
Se 





L<S 





tr,str> Arcs; 





ES 


tr> Nodes } 


num Cost{Arcs}; 

num Capacity{Nodes}; 
num S 
num Demand{Nodes} init 
/* read data from SAS 


read data route into Arcs=[Origin Destination] Cost; 





upply{Nodes} init 











EQ 
tO; 
data sets */ 








read data capacity in 
/* assign supply and demand values */ 
Supply['Toronto'] = 800; 


Demand|['"] 














to Nodes = [Warehouse] Capacii 


BeiJing'] = 800; 


/* declare variables */ 
Var x{Arcs} >= 0<= 350; 


impvar Flow In{k in Nodes} = sum{<i, (k)> in Arcs} xl[i,k]; 








impvar F] 





/* declare constraints */ 
con Flow Balance{k in 
Flow 


Con F] 





In 


j= 








Flow In[k] + 





Nodes}: 


k] + Supply[k] = Flow Out[k] + Demand[k]; 
low Node{k in Nodes}: 





Supply[k]<=Capacityl[k]; 


-* 


LY7 


Low Out{k in Nodes} = sum{<(k),j> in Arcs} X[Ky]， 


/* declare objective */ 
min Total Cost = sum{<i,j> in Arcs} Cost[i,j] * x[i,j]; 
solve with lp / solver=ns; 
create data network flows from [Origin Destination]= 
{<i,j> in Arcs: x[i,j]>0} Amount=x; 

quit; 














运行 上 述 代码 ， 解 的 汇总 信息 以 及 最 优 解 数据 集 Network_flow 如 图 22.11 所 示 。 


根据 上 面 的 输出 ， 最 佳 路 线 如 图 22.12 所 示 ， 整 个 路 线 的 费用 为 646750。 


The OPTMODEL Procedure 


Solution Summary 


Solver LP 
Algorithm Network Simplex 
Objective Function Total Cost 
Soluion Status Optimal 


Oblective Value 














Primal Infeasibility 
Dual Infeasibility 
Bound Infeasibility | 


lterations 


Iterations2 


Presolve Time 








Solution Time 


646750 


13 
2 
0.00 
0.00 
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2 Toronto Los Lnzel 350 
3 Toronito an FTC IST 150 
中 Chicago ShangHai 300 
写 Los Lneel Tianlm 200 
加 Los Anael Hongkone 50 
了 San 了 Tamclsco Honekong 150 
8 shangHa Beiing 300 
9 Tianlin Beiling 300 
lO |Hongkone Beailine 200 oe 





图 22.11 使 用 网 络 流 模型 设计 最 佳 线 路 


之 加 可 
(Chicago) 









多 伦 多 


(Toronto ) 








人 





Eranclsco ) ， 


22.4 本章 小 结 


本 章 讲 解 了 PROC OPTMODEL 程 序 设计 方面 的 知识 ， 涉 及 流程 的 控制 、 索 引 集 的 处 理 以 及 模型 的 更 新 。 对 于 线性 规划 中 的 一 类 特殊 问题 


求解 器 ， 一 般 来 说， 该 求解 器 比 其 他 的 求解 器 效率 要 高 。 
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图 22.12 ”最 佳 路 线 图 


网 络 流 问题 ， 可 以 调用 PROC OPTMODEL 中 的 网 络 单纯 形 





回顾 前 面 介 绍 的 线性 规划 问题 以 及 运用 PROC OPTMODEL 建 立 线 性 规划 模型 并 求解 ， 可 以 友 现 ， 在 这 些 线性 规划 问题 中 ， 决 策 变量 的 取 值 都 是 连续 型 的 。 然 而 ， 对 于 很 多 实际 问题 ， 其 实 只 有 当 问 题 
的 最 优 解 为 整数 时 才 有 意义 。 对 于 这 类 问题 ， 不 能 简单 地 认为 ， 决 策 变量 为 整数 型 问题 的 解 就 是 对 决策 变量 为 连续 型 问题 的 解 取 整 。 研 究 如 何 求 得 整数 最 优 解 的 数学 规划 问题 属于 运筹 学 的 另 一 个 分 支 一 一 
整数 规划 。 本 章 将 介绍 如 何 求解 整数 线性 规划 问题 和 混合 整数 线性 规划 问题 。 


23.1 ”整数 线性 规划 和 混合 整数 线性 规划 概述 


在 线性 规划 中 ， 如 果 所 有 决策 变量 的 取 值 都 要 求 是 非 负 整数 ， 则 此 类 问题 称 为 纯 整 数 线性 规划 ， 简 称 整 数 线性 规划 (Integer Linear Programming，ILP) ; 如 果 有 的 决策 变量 可 取 非 负 实数 ， 有 的 限 
取 整 数 ， 则 此 类 问题 被 称 为 混合 整数 线性 规划 问题 (Mixed Integer Linear Programming，MILP) 。 在 本 章 中 ， 除 非特 别 说 明 ， 线 性 规划 问题 指 的 都 是 决策 变量 为 连续 型 的 线性 规划 问题 。 线 性 规划 、 整 
数 线性 规划 以 及 混合 整数 线性 规划 的 示例 如 图 23.1 所 示 。 


max /5S*x+4*y max /SS*xt4*y max /5S*x+4*y 


s.t. 2*x—y 三 3 Sst. 2*x—y 夺 : Ss.t. 2*x—y 三 3 
3*xt+4*y 三 9 Fxt+4*y 3*x+4*y 三 9 
xy 宇 0 三 0 YY 三 0 
XJ 均 为 整数 x 为 整数 
问题 ( 1 ): 线性 规划 问题 问题 (2 )， 整数 线性 规划 问题 问题 ( 3 ): 混合 整数 线性 规划 问题 


有 
i 





图 23.1 3 种 规划 的 示例 


整数 线性 规划 问题 可 行 解 的 个 数 虽 然 是 有 限 的 ， 但 是 试图 用 枚 举 法 列 出 该 问题 的 所 有 整数 解 ， 再 设法 从 中 找 出 最 优 解 的 想法 显然 是 不 现实 的 。 对 于 整数 线性 规划 问题 ， 若 将 其 整数 限制 放 开 ， 便 得 到 原 
整数 规划 问题 的 一 个 伴随 问题 。 该 伴随 问题 是 一 个 线性 规划 问题 ， 可 以 方便 地 用 单纯 形 法 求解 。 然 而 ， 在 求 得 伴随 问题 的 最 优 解 之 后 ， 若 试图 通过 对 该 最 优 解 “ 取 整 ”的 途径 来 得 到 原 整数 线性 规划 问题 的 
最 优 解 ， 也 是 行 不 通 的 。 


那么 ， 能 否 在 合理 剖 分 可 行 域 的 同时 ， 只 检验 部 分 整数 解 ， 即 求 得 整数 线性 规划 问题 的 最 优 解 呢 ”答案 是 肯定 的 ， 这 就 是 分 支 定 界 法 (Branch-and-Bound Method) 的 基本 思想 。 
23.1.1 “分 支 定 界 法 


分 支 定 界 法 的 基本 思想 是 将 原 问 题 分 解 为 若干 个 分 支 ， 通 过 对 各 个 分 支 的 求解 达到 求解 原 问 题 的 目的 。 不 失 一 般 性 ， 以 最 大 化 目标 函数 的 整数 线性 规划 问题 为 例 ， 分 支 定 界 法 的 主要 步骤 为 (混合 整数 
线性 规划 的 求解 步骤 与 整数 线性 规划 的 步骤 一 致 ) : 


1) 求解 原 整 数 线性 规划 问题 的 伴随 问题 。 将 决策 变量 的 整数 约束 放 开 ， 这 样 ， 整 数 线性 规划 问题 就 转化 成 为 一 个 线性 规划 问题 。 如 果 伴随 问题 的 最 优 解 恰好 是 整数 解 ， 那 么 该 最 优 解 即 为 原 整数 线性 规 
划 的 最 优 解 ， 求 解 结束 ;如 果 伴 随 问题 无 可 行 解 ， 那 么 原 整数 线性 规划 也 无 可 行 解 ， 求 解 结束 ; 如 果 伴 随 问 题 有 最 优 解 ， 但 是 最 优 解 不 满足 整数 的 约束 条 件 ， 那 么 进入 下 一 步 。 


2) 分 文 。 对 伴随 问题 最 优 解 中 不 满足 整数 约束 条 件 的 某 一 个 决策 变量 xi (假设 xi 取 值 为 x**) 进行 “分 支 ”。 记 [x*] 为 小 于 等 于 x* 的 最 大 整数 。 分 支 的 具体 做 法 为 : 分 别 将 约束 条 件 xi> [x%]+1 和 xi< [Xx] 加 
入 原 整数 线性 规划 问题 中 。 这 时 原 问 题 的 可 行 域 就 被 剖 分 成 了 两 个 子 可 行 域 ， 从 而 也 就 分 别 得 到 了 两 个 子 可 行 域 上 的 整数 线性 规划 问题 ， 这 两 个 整数 线性 规划 问题 就 称 为 分 支 。 注 意 ， 在 分 支 的 过 程 中 ， 去 
除 的 区 域 为 [x*]<x<[x*]+1， 该 区 域内 并 不 包含 任何 整数 。 


3) 定 界 。 分 别 对 每 个 分 支 进 行 求解 。 求 解 每 个 分 支 的 伴随 问题 ， 若 该 分 支 的 伴随 问题 没有 可 行 解 ， 对 该 分 支 进 行 吝 支 ( 即 不 再 考虑 该 分 支 ) ; 若 该 分 支 伴随 问题 的 最 优 解 是 整数 解 ， 那 么 该 分 支 的 最 优 
解 是 整数 线性 规划 最 优 解 的 一 个 备 选 ， 此 时 的 最 优 值 是 原 问 题目 标 值 的 一 个 下 界 。 若 该 分 支 伴随 问题 的 最 优 解 仍然 不 满足 决策 变量 的 整数 约束 条 件 ， 并 且 此 时 的 最 优 值 比 已 经 发 现 的 原 问 题 的 目标 值 下 界 
小 ， 就 对 该 分 支 进行 剪 支 ; 如 果 此 时 的 最 优 值 比 已 经 发 现 的 目标 值 下 界 大 ， 那 么 它 提 供 了 原 问题 最 优 目 标 值 的 一 个 新 上 界 ， 并 转 入 第 2 步 中 ， 对 于 该 伴随 问题 最 优 解 中 的 某 一 个 非 整 数 决策 变量 xj (J 可 以 不 等 
于 i) 进行 分 支 ， 然 后 求解 。 


4) 直到 所 有 的 分 支 都 无 进一步 分 支 的 价值 ， 则 比较 所 有 备 选 分 支 的 最 优 解 ， 目 标 值 最 大 的 分 支 最 优 解 即 为 原 整数 线性 规划 的 最 优 解 。 
全 注意 ”在 分 支 步骤 中 ， 不 满足 整数 约束 条 件 的 决策 变量 可 能 有 多 个 。 在 这 种 情况 下 ， 选 择 不 同 的 决策 变量 进行 分 支 ， 求 解 过 程 可 能 不 一 样 ， 但 是 最 终 求 得 的 最 优 解 肯 定 是 一 样 的 。 


例 23.1: 分 支 定 界 法 示例 。 利 用 分 支 定 界 法 对 图 23.1 中 的 整数 线性 规划 问题 进行 求解 。 为 了 下 文 叙述 的 方便 ， 记 该 整数 线性 规划 问题 为 ILP0，1ILP0 的 伴随 问题 记 为 LP0， 各 分 支 分 别 记 为 ILP1、1LP2 等 ， 
各 分 支 对 应 的 伴随 问题 分 别 记 为 LP1、LP2 等 。 


首先 ， 对 ILP0 进 行 放松 。 经 过 放松 后 的 伴随 问题 ( 即 LP0) 为 图 23.1 中 的 问题 (1) 。 现 在 对 该 线性 规划 问题 进行 求解 ， 示 例 代码 如 下 : 


/*1p0O*/ 
proc optmodel; 
Var x>=0 } 
Var y>=0 } 
Con 2*x-y<=3; 
Con 3*x+4*y<=9; 
max f=D5*x+4*y; 
solve; 
print XX Y? 
quit; 





运行 上 述 代码 ， 输 出 结果 如 图 23.2 所 示 。 


The OPTMODEL Proct 









































从 图 中 可 以 看 出 ， 


该 最 优 解 (x*=1.9091, 


1.9091 | U.SBI1818 








图 23.2 


y*=0.8181) 并 不 满足 决策 变量 为 整数 的 约束 条 件 。 因 此 ， 


包含 在 约束 条 件 x>2 中 了 ， 但 为 了 更 好 地 理解 分 支 定 界 的 过 程 ， 这 里 同时 保留 这 两 个 约束 条 件 


码 。 


max 全 95#X 十 4*y maxf=5*x+4*y 
Ss.t.2*x-y< 3 


Ss.t.2*x-y<3 


3*x+4*+y<9 3*x+4*y<9 


分 支 I[LP1 分 支 ILP2 


对 分 支 ILP1 与 1LP2 的 伴随 问题 LP1 和 LP2 分 别 使 用 PROC OPTMODEL 进 行 求解 ， 


习惯 上 ， 可 以 将 分 支 以 树 形 的 方式 展示 ， 


在 图 23.3 中 ，LP2 的 可 行 域 为 空 集 ， 可 以 对 该 分 支 进 


max f=5*x+4*y maxf=5*x+4*y 
Ss.t.2*x-y< 3 


S.t.2*x-y< 3 


3*x+4*+y<9 3*x+4*y<9 


分 支 ILP3 分 支 ILP4 


下 面 分 别 对 分 支 ILP3 和 ILP4 的 伴随 问题 LP3 和 LP4 进 和 


[x 


"=1 


该 代码 与 上 面 求解 LP0 的 示例 代码 类 似 (只 需 在 声明 决策 变量 


线性 规划 LP0 的 最 优 解 及 最 优 值 


， 对 线性 规划 LPO 进 行 分 支 定 界 ， 如 下 所 示 。 可 以 发 现 ， 


时 对 决策 变量 


该 树 也 称 分 支 定 界 树 。 图 23.3 以 分 支 定 界 树 的 形式 展示 了 LPO0、LP1 以 及 LP2。 


行 剪 支 。 对 于 LP1, 


J 求解 ， 得 到 的 最 优 解 以 及 最 优 值 如 图 23.4 所 示 。 


最 优 解 y* 的 值 不 完全 满足 整数 约束 条 件 。 因 此 ， 根 据 小 于 等 于 y* 的 最 大 整数 ([y*]=1 


) ， 对 ILP1 继 续 


(LPO):f* = 12.8181 


= 1.9091,y"* 


(pl f= =10 
1,y = 1.5 


图 23.3 LP1 和 LP2 的 求解 结 


= 0.818]1 


(Lp2): 


的 界 进行 修改 ) ， 


J 分 支 


限于 篇 幅 ， 


定 界 


定 界 


Infteasible 





分 支 ILP2 中 的 约束 条 件 x>0 已 经 被 


省 略 代 


具体 如 下 所 


(LPO):f* = 12.8181 
x* = 1.9091,y* = 0.8181 





(LP1: 产 =10 (Lp2): 


x 一 1y = 1.5 Infeasible 


(ra = (LP4):f* = 9.6667 
er XxX’ = 0.3333,y”=2 





图 23.4 分支 ILP1~ILP4 的 求解 结果 


从 图 23.4 可 以 看 出 ,分 支 ILP3 的 最 优 解 是 整数 解 ， 因 此 ， 该 整数 解 是 原 整 数 规划 问题 最 优 解 的 一 个 备 选 ， 最 优 值 9 为 原 问题 目标 值 的 一 个 下 界 。 但 LP4 的 最 优 解 仍然 不 满足 决策 变量 为 整数 的 约束 条 件 ， 
不 过 ， 最 优 值 9.6667 为 原 问 题 的 目标 值 提供 了 一 个 上 界 ， 现 在 要 继续 对 LP4 进 行 分 支 定 界 。 完 整 的 分 支 定 界 树 如 图 23.5 所 示 。 


从 图 23.5 可 以 看 出 ，LP7 的 最 优 解 也 满足 决策 变量 为 整数 的 约束 条 件 。 因 此 ， 分 支 LP7 的 最 优 解 也 是 原 整数 规划 问题 最 优 解 的 一 个 备 选 。 在 图 23.5 中 ， 所 有 备 选 解 所 在 的 分 支 均 以 阴影 形式 标记 了 。 比 较 
所 有 备 选 解 的 目标 值 ， 可 以 得 出 原 整数 规划 的 最 优 解 为 x**=1,，y*=1。 


对 分 支 定 界 法 而 言 ， 其 实施 要 点 可 以 归纳 如 下 : 

1) 定 界 原 则 如 下 。 

. 对 于 求 最 大 化 问题 ， 子 可 行 域 上 伴随 问题 的 整数 解 提供 了 原 问 题 最 优 目标 值 的 下 界 ， 伴 随 问题 的 非 整 数 解 则 提供 了 原 问 题 最 优 目 标 值 的 上 界 。 
. 对 于 求 最 小 化 问题 ， 子 可 行 域 上 伴随 问题 的 整数 解 提 供 了 原 问题 最 优 目标 值 的 上 界 ， 伴 随 问题 的 非 整 数 解 则 提供 了 原 问 题 最 优 目标 值 的 下 界 。 
2) 分 支 原 则 如 下 。 

. 可 以 选择 伴随 问题 的 最 优 解 中 不 满足 整数 约束 条 件 的 任 选 一 个 决策 变量 进行 分 支 。 


. 若 子 可 行 域 上 的 伴随 问题 不 可 行 ， 或 者 子 可 行 域 上 伴随 问题 的 最 优 解 是 整数 ， 则 在 该 子 可 行 域 上 不 再 分 支 。 对 于 求 最 大 化 问题 ， 若 伴随 问题 最 优 解 所 对 应 的 目标 值 小 于 已 求 出 的 下 界 ， 则 在 该 子 可 行 
域 上 不 再 分 支 ; 对 于 求 最 小 化 问题 ， 若 伴随 问题 最 优 解 所 对 应 的 目标 值 大 于 已 定 出 的 上 界 ， 则 在 该 子 可 行 域 上 不 再 分 支 。 





(LPO}:f” = 12.8181 
X 一 1.9091,Yy = 0.8181 
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图 23.5 ”分 支 定 界 树 


23.1.2” 制 平面 法 


若 原 整数 线性 规划 问题 的 伴随 问题 最 优 解 为 非 整 数 ， 则 设法 在 其 伴随 问题 中 增加 一 条 约束 ， 并 将 此 非 整 最 优 解 “ 割 ”去 ; 同时 要 保证 原 问题 的 任 一 整数 可 行 解 不 被 “ 割 ” 去 。 这 个 新 增加 的 约束 条 件 通 
常 称 为 割 平面 (Cutting Plane) 。 然 后 ， 对 增添 了 割 平面 的 整数 线性 规划 的 伴随 问题 运用 单纯 形 法 求解 ， 直 至 求 得 原 问 题 的 整数 最 优 解 为 止 。 这 就 是 割 平 面 法 的 算法 思想 。 

基于 上 面 的 算法 思想 ， 割 平面 必须 具有 以 下 两 个 性 质 : 

* 割 去 了 相应 伴随 问题 的 非 整数 最 优 解 。 


` 不 会 割 去 原 问 题 的 任 一 整数 可 行 解 。 


基于 这 两 个 性 质 ， 可 以 建立 如 下 算法 步骤 : 

1) 求解 原 问 题 的 伴随 问题 ， 得 到 最 优 解 。 

2) 若 最 优 解 是 整数 解 ， 则 求解 结束 ;否则 ， 进 入 第 3 步 。 

3) 选择 某 一 不 满足 整数 约束 条 件 的 决策 变量 构造 割 平面 ， 对 新 增添 了 割 平面 的 整数 线性 规划 的 伴随 问题 进行 求解 ， 直 到 求 得 整数 最 优 解 。 


考虑 例 23.1 中 的 问题 。 观 察 图 23.6， 考 虑 到 决策 变量 必须 为 整数 的 约束 条 件 ， 该 整数 线性 规划 问题 的 可 行 解 为 (0, 0) 、 (1, 0) 、 (0, 1) 、 (1, 1) 和 (0，2) 。 上 述 可 行 解 都 满足 不 等 式 Xx<1， 
但 是 最 优 解 (1.9091，0.8181) 却 不 满足 该 不 等 式 。 不 等 式 x< 1 满足 割 平面 的 两 个 性 质 ， 可 以 作为 是 该 整数 线性 规划 问题 的 一 个 割 平面 。 割 去 的 部 分 可 行 域 以 及 剩余 的 可 行 域 如 图 23.6 所 示 。 
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利于 的 可 行 域 





乾 | 去 的 可 行 域 





图 23.6” 害 平 面 x 委 1 
构造 割 平面 的 方法 很 多 。 常 见 的 方法 如 下 。 
(1) 利用 伴随 问题 的 最 优 解 构造 


如 果 伴随 问题 存在 最 优 解 ， 那 么 根据 前 面 的 介绍 可 知 ， 该 伴随 问题 的 可 行 域 是 凸 集 ， 并 且 其 最 优 解 必然 可 以 在 可 行 域 的 项 点 处 达到 。 可 见 ， 由 单纯 形 法 所 求 得 的 最 优 解 ， 一 定 是 可 行 域 的 顶点。 所 以 ， 
在 上 述 线性 规划 问题 LP0 中 ， 最 优 解 x**=1.9091、y*=0.8181 一 定 可 以 使 得 某 几 个 约束 条 件 成 为 紧 约 束 条 件 。 稍 加 考察 可 知 ， 该 最 优 解 同时 使 得 约束 条 件 3*x+4*y<9 以 及 2*x-y< 3 成 为 了 紧 约 束 条 件 ， 即 不 但 
满足 上 述 两 个 约束 条 件 ， 而 且 使 得 两 个 约束 条 件 中 的 等 号 成 立 。 现 在 就 可 以 根据 这 两 个 约束 条 件 ， 构 造 割 平面 x<1， 具 体 步 又 如 下 : 


1) 不 等 式 2*x-y<3 的 两 边 同 时 乘 以 4， 得 到 8*x-4*y<12。 
2) 将 上 一 步 中 的 不 等 式 8*x-4*y<12 以 及 原 线性 规划 中 的 不 等 式 3*x+4*y<9 相 加 ， 得 到 新 的 不 等 式 : 11*x<21， 即 Xx<21/11。 
3) 由 于 x 取 值 只 能 为 整数 ， 据 此 得 到 x<1。 

(2) 根据 单个 约束 条 件 以 及 决策 变量 的 上 、 下 界 进 行 构 造 

例如 ， 利 用 不 等 式 X&1， 以 及 3*x+4*y<9 可 以 构造 割 平面 x+y<2。 具 体 做 法 如 下 : 

4*xT4*+y 一 x+3*kx+4*y<< 1T3xxT+T4ky<<10 


两 边 同时 除 以 4， 得 到 : 


10 
CH 
4 


由 于 决策 变量 x 与 y 取 值 均 为 整数 ， 因 此 ，x+y 的 取 值 也 只 能 为 整数 。 据 此 ， 可 以 推断 : 


x+y 委 2 


如 果 在 图 23.6 中 添加 一 个 新 的 割 平面 x+y<2， 得 到 的 可 行 域 恰 好 有 一 个 顶点 满足 整数 线性 规划 的 约束 条 件 ， 且 该 项 点 为 添加 割 平面 后 伴随 问题 的 最 优 解 ， 那 么 可 以 判定 该 最 优 解 (1，1) 即 为 整数 线性 
规划 问题 的 最 优 解 ， 如 图 23.7 所 示 。 


添加 割 平面 x+y<2 后 ， 求 解 线性 规划 问题 的 代码 如 下 : 
proc optmodel; 


var x>=0R= = > 


Var y>=0 } 


宇 || 亚 
Con 2" VE 


Gaon 3dry=9; 





SO KIye=2 


max FF=0*X+4* yy: 
solve; 
Dill oe, Wy 

寺 寺 于 二 


运行 上 述 代 码 后 ， 输 出 结果 如 图 23.8 所 示 。 
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x+y<2 3*xt+4*y<D 
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图 23.7 添加 新 的 割 平面 后 得 到 最 优 解 
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图 23.8 添加 荐 平面 后 伴随 问题 的 最 优 解 


在 实际 使 用 中 ， 制 平面 法 一 般 与 分 支 定 界 法 结合 使 用 ， 称 为 分 支 割 平面 算法 (Branch-and-Cut Algorithm) 。 


23.2 使 用 PROC OPTMODEL 求 解 混合 五 数 线性 规划 


前 面 介绍 了 整数 规划 以 及 混合 整数 规划 的 求解 方法 和 步骤 ， 本 节 介绍 如 何 使 用 SAS/OR 的 PROC OPTMODEL 对 整数 线性 规划 以 及 混合 整数 规划 线性 进行 求解 。 


在 PROC OPTMODEL 中 ， 整 数 变 量 的 定义 是 通过 关键 字 INTEGER 来 实现 的 。 例 如 ， 以 下 代码 分 别 定义 了 决策 变量 X， 以 及 以 集合 ARCS 为 索引 集 的 决策 变量 Cost， 两 个 决策 变量 规定 了 只 能 取 整 数值 。 


var x>=0<=2 integer; 
var Cost{ARCS}>=0 integer; 





有 的 时 候 ， 直 接 调用 MILP 求 解 器 求解 整数 线性 规划 或 者 混合 整数 线性 规划 ， 往 往 需要 人 花费 大 量 的 计算 资源 ， 这 种 情况 下 可 以 先 通 过 求解 其 伴随 问题 来 获得 对 最 优 解 的 一 个 初步 认 知 。 在 PROC 
OPTMODEL 中 ， 使 用 .RELAX 下 缀 可 以 放 开 对 决策 变量 的 整数 约束 。 其 语法 如 下 : 


变量 .relax = 某 一 非 零 、 非 缺失 值 





其 中 ， 等 号 右边 的 值 并 无 实际 意义 ， 只 要 该 值 非 零 或 者 是 非 缺失 值 ， 就 表示 放 开 对 变量 的 整数 约束 。 如 果 在 优化 问题 中 ， 决 策 变量 本 身 不 要 求 是 整数 ， 那 么 PROC OPTMODEL 会 忽略 该 语句 。 


下 面 的 代码 放 开 了 3 个 变量 的 整数 约束 ， 其 中 第 3 个 语句 放 开 了 整个 变量 组 的 整数 约束 。 


X.relax =1; 
Cost['New York', 'BeiJing'] .relax =1] } 
for {k in NODES} Z[k] .relax =1; 

















如 果 要 一 次 性 放 开 所 有 决策 变量 的 整数 约束 ， 可 以 在 调用 求解 器 时 使 用 以 下 语法 : 





Solve relaxint 


例 23.2: 回顾 例 23.1 整 数 线性 规划 问题 ， 使 用 PROC OPTMODEL 求 解 该 问题 。 


示例 代码 如 下 : 





proc optmodel; 
var x>=0 integer; 
Var y>=0 integer; 
Con 2*x-y<=3; 
Con 3*xt4*y<=09} 
max f=*xt+4*y; 
solve; 
Brint x vy 
quit; 








运行 上 述 代码 ， 输 出 结果 如 图 23.9 所 示 。 从 图 23.9 中 可 以 看 出 ，PROC OPTMODEL 使 用 的 是 MILP 求 解 器 ， 调 用 的 算法 是 分 支 割 平面 法 (Branch and Cut) ， 最 优 解 为 x**=1,，y*=2。 
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图 23.9 ”整数 线性 规划 问题 的 输出 结果 


在 分 支 割 平面 法 中 ， 与 前 面 介绍 的 分 支 定 界 树 相 对 应 的 是 分 支 割 平面 树 ， 但 是 这 种 方法 在 分 支 的 过 程 中 同时 也 添加 了 割 平面 约束 。 在 使 用 MILP 求 解 器 对 整数 线性 规划 问题 进行 求解 时 ， 日 志 中 输出 了 分 
支 割 平面 法 在 求解 过 程 中 的 Bestlnteger、BestBound、Gap、 运 行 时 间 等 信息 ， 如 图 23.10 所 示 。 


NOTE: The MILP soluer is called. 
Node fctive 8301s Best Integer BestBound Gap 
| 2 9.0000000 12.7142857 29.21% 
2 9.0000000 11.7500023 23.40% 
2 J.0000000 11.0001020 18. 18% 
2 9.0000000 gd.0000000 .00n 


| 
| 
心 





图 23.10 ”使 用 分 支 割 平面 法 的 日 志 信息 


其 中 : 
“ Sols 为 当前 已 经 找到 的 可 行 解 个 数 。 


对 于 最 大 化 问题 ，BestInteget 为 当前 已 经 求解 到 的 最 优 整 数 解 的 目标 值 中 最 大 的 一 个 ， 这 个 目标 值 是 原 问题 最 优 目 标 值 的 一 个 下 界 。 对 于 最 小 化 问题 ，BestInteget 是 所 有 最 优 整 数 解 目标 值 中 最 小 的 一 
个 ， 这 个 目标 值 是 原 问题 最 优 目 标 值 的 一 个 上 界 。 对 于 最 大 化 问题 ， 在 求解 的 过 程 中 ， 应 该 可 以 观察 到 BestInteget 是 非 减 的 。 


对 于 最 大 化 问题 ，BestBound 为 当前 已 经 求解 到 的 最 优 非 整数 解 的 目标 值 中 最 小 的 一 个 ， 这 个 目标 值 是 原 问题 最 优 目标 值 的 一 个 上 界 。 对 于 最 小 化 问题 ，BestBound 是 所 有 最 优 非 整数 目标 值 中 最 大 的 


一 个 ， 这 个 目标 值 是 原 问题 最 优 目标 值 的 一 个 下 界 。 对 于 最 大 化 问题 ， 可 以 观察 BestBound 是 非 增 的 〈 如 图 23.10 所 示 ) 。 
.Gap 衡量 的 是 BestInteget 与 BestBound 之 间 的 相对 间隔 。 整 个 求解 过 程 实 际 上 是 不 断 〈 试 图) 缩小 Gap 的 过 程 (如 图 23.10 所 示 ) 。 当 Gap=0 时 ， 上 界 和 下 界 相 等 ， 求 得 最 优 整数 解 。 在 PROC 


OPTMODEL 中 ，Gap 的 默认 取 值 为 10， 即 如 果 当 前 Gap 小 于 等 于 该 默认 值 时 ， 求 解 结 来 ， 当 前 BestInteget 对 应 的 整数 解 即 为 原 问题 的 最 优 解 。Gap 的 具体 计算 公式 如 下 : 


IBestInteger - BestBound| 


Gap = 
by IBestBound| + 10™" 


. 在 实际 建 模 过 程 中 ， 由 于 问题 的 规模 一 般 比 较 大 ， 如 果 要 得 到 Gap 小 于 默认 值 的 最 优 解 往往 要 花费 很 多 时 间 ， 而 时 间 因 素 通 常 也 是 商业 问题 求解 过 程 中 的 一 个 重要 考虑 因 素 。 因 此 ， 在 实际 操作 中 ， 当 
Gap 足 够 小 时 (例如 0.5%) ， 就 可 以 近似 地 认为 当前 的 BestInteget 对 应 的 整数 解 为 整数 线性 规划 问题 的 最 优 解 了 。 


表 23.1 总 结 了 MILP 求 解 器 用 于 终止 算法 的 各 选项 。 


表 23.1 终止 MILP 求 解 的 选项 及 含义 


选 项 含 义 
BestBound 与 Sloee 之 差 的 绝对 人 的 国 但 。 如 果 当 前 二 者 之 差 小 于 该 国 值 ， 算 法 终 目 


ABSOBJGAP = 
系统 默认 值 为 10* 
支 定 界 枢 或 -A 支 汗 | 平面 wo 个 许 节 最 多 节点 数 Yi AN -过 后 于 刁 区 于 | 自 x 由 
MAXNODES= | 分 支 Si 者 分 于 a j 最 多 节点 数 。 当 分 文 定 界 树 或 者 分 文 制 平面 树 中 的 
节点 达到 等 号 右边 指 EO 算法 终止 
MAXSOLS = 指定 最 多 允许 找到 的 可 行 解 。 当 当前 找到 的 可 行 解 的 个 数 达 到 右边 指定 的 个 数 时 ， 算 法 终止 
指定 PROC OPTMODEL 的 最 长 运行 时 间 ， 时 间 单 位 为 秒 。 如 果 不 指 定 该 时 间 选 项 ， 那 么 
MAXTIME = Re 
PROC OPTMODEL 会 一 直 运 行 ， 直 至 满足 其 他 某 一 终止 条 件 为 止 
RELOBJGAP = 指定 Gap 值 ， 如 果 当 前 Gap 值 小 于 指定 值 时 ， 算 法 终止 。 系 统 默认 值 为 10” 
TARGET = 指定 BestInteger 的 日 标 值 ， 当 达到 或 者 优 于 该 日 标 值 时 ， 算 法 终止 


调用 表 23.1 中 的 选项 的 语法 如 下 : 





SOVLE WITH MILP</ 选 项 >， 

















例如 ， 以 下 语句 将 PROC OPTMODEL 求 解 时 间 上 限 设置 为 600 秒 。 











SOVLE WITH MILP/MAXTIME = 600; 


























例 23.3: 求解 图 23.1 中 的 混合 整数 线性 规划 。 


示例 代码 如 下 : 





proc optmodel; 
Var x>=0 } 
var y>=0 integer; 
Con 2*x-y<=3; 
Con 3*x+4*y<=9; 
max f=D*x+4*y; 
solve; 





print x Y? 
quit; 


运行 以 上 代码 ， 输 出 结果 如 图 23.11 所 示 。 
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Integer Infeasibility 


x |y 
1.6667 | 1 


图 23.11 混合 整数 线性 规划 求解 结果 


23.3 ”使 用 0-1 变 量 建 模 


在 使 用 混合 整数 线性 规划 进行 建 模 时 ， 常 见 的 一 种 情形 是 决策 变量 的 取 值 只 能 是 


0 或 1。 例 如 ， 在 建 模 中 ， 一 个 常见 的 约束 条 件 是 成 本 约束 ， 成 本 仅 发 生 在 决策 变量 大 于 0 时 ， 即 执行 了 某 个 操作 才 产 生 
成 本 ， 否 则 不 产生 成 本 。 在 这 种 情形 下 ， 往 往 需要 使 用 0-1 变 量 来 辅助 建 模 。 在 PROC OPTMODEL 中 ， 可 以 使 用 关键 字 BINARY 来 声明 0-1 变 量 。 例 如 以 下 代码 声明 了 一 个 以 集合 NODES 为 索引 集 的 0-1 变 量 
组 。 








Var X{NODES} binary:; 


下 面 结合 案例 讲述 如 何 使 用 0-1 变 量 建 模 。 


23.3.1 ”问题 的 提出 


菜 商业 银行 在 某 市 拥有 大 量 的 自动 取款 机 。 从 银行 的 角度 来 看 ， 在 不 影响 客户 使 用 的 前 提 下 ( 即 绝 大 多 数 来 取现 的 客户 都 能 够 取 到 现金 ) 
5 已 经 预测 出 未 来 7 天 中 每 天 的 取款 需 


， 取 款 机 内 的 现金 越 少 越 好 。 通 过 对 每 天 取款 数据 的 分 析 ， 银 
款 需 求 ， 于 是 银行 通过 补 钞 车 对 取款 机 进行 了 补 钞 。 每 台 取 款 机 由 某 一 特定 的 补 钞 车 进行 补 钞 


， 且 每 次 补 钞 都 会 产生 一 定 的 费用 。 补 钞 车 每 天 能 够 补给 的 取款 机 的 数量 是 
一 定 限 制 的 。 该 商业 银行 希望 结合 预测 数据 ， 通 过 建 模 分析 ， 制 定 一 个 未 来 7 天 按 天 设计 的 最 佳 取款 机 补 钞 计 划 。 


除了 每 台 补 钞 车 每 天 只 能 补给 一 定数 量 的 取款 机 这 一 约束 条 件 外 ， 本 案例 还 有 其 他 的 一 些 约束 条 件 ， 归 纳 如 下 : 
. 每 台 取 款 机 能 容纳 的 现金 有 一 定 上 限 。 


* 每 天 补 钞 所 用 的 现 钞 总 额 有 一 定 限制 。 


23.3.2 ”数学 模型 
1. 索 引 集 和 索引 集中 的 项 


上 述 优化 问题 中 需要 用 到 的 索引 集 包 括 以 下 这 些 


` ATM: 集合 ATM 中 的 项 为 每 台 取 款 机 机 器 的 编号 ，aEATM， 即 a 的 取 值 为 取款 机 的 编号 。 


: DATE: 集合 DATE 中 的 项 为 日 期 ，d€ DATE， 即 d 的 取 值 为 日 期 。 
LOCATION: 集合 LOCATION 中 的 项 为 区 域 ，ELOCATION， 的 取 值 为 区 域 。 


. ATM_LOCATION: 集合 ATM_LOCATION 中 的 项 是 取款 机 编号 和 区 域 的 组 合 ， 是 二 元 组 ， 


(a，) EATM_LOCATION，a 的 取 值 为 取款 机 的 编号 ， 的 取 值 为 区 域 。 
.LOCATION_VTYPE: 集合 LOCATION_VTYPE 中 的 项 是 区 域 和 补 钞 车 的 组 合 ， 是 二 元 组 ， 是 一 个 二 维 集合 ， (，v) ELOCATION_VTYPE， 第 一 个 位 置 的 数据 表示 的 取款 机 所 在 的 地 区 ， 
置 的 数据 表示 运 钞 车 。 


入 


第 二 个 位 


2. 参 数 和 参数 数组 


下 面 来 看 看 上 述 优化 问题 中 将 会 用 到 的 参数 情况 ， 如 表 23.2 所 示 。 


表 23.2 ”取款 机 补 钞 问题 中 的 参数 


参数 名 称 描 述 


capacity[a] 编写 为 a 的 取 球 机 能 容纳 现金 的 上 限 

cost[a] 给 编号 为 a 的 取 球 机 补 一 次 钞 发 生 的 费用 

budget[d] 在 第 d 天 内 ， 所 有 补 钞 总 量 的 上 限 

withdraw[a, d] 编写 为 a 的 取 蒜 机 在 d 天 预计 的 取 黎 金额 

init inv[a, d] 编写 为 a 的 取 蒜 机 在 d4 天 的 初始 现 钞 金 额 

count[ € . V] 区 域 《 的 补 钞 车 v 每 天 最 多 能 补给 的 取 蒜 机 数量 的 上 限 


3. 变 量 


在 了 解 了 参数 情况 以 后 ， 再 来 看 看 会 涉及 哪些 变量 ， 如 表 23.3 所 示 。 


表 23.3 ”取款 机 补 钞 问题 中 的 变量 





变量 名 称 接 述 
X[a, d] 在 d 天 给 编号 为 a 的 取款 机 补 钞 的 金额 ，X[a, d] 三 0 
编号 为 a 的 取 蒜 机 在 d 天 结束 时 所 能 支配 的 现金 条 起 如 过 了 预计 取 蒜 金额 的 部 分 ， 即 现 余 
Sminus[a.,d| Ea Rs Ee A 
额 。 如 来 所 能 支配 的 现金 祯 Ue 计 取 天 金额 ， [为 0 
编 号 为 a 的 取款 机 在 d 天 结束 时 所 能 支配 的 现金 额 小 于 预计 取款 金额 的 部 分 。 如 果 所 能 
Splus[a.d| 


配 的 现金 额 大 - 于 预计 取款 金富 该 值 为 0 
a 对 编号 为 a 的 取 球 机 进行 补 钞 ， 该 决策 变量 为 二 分 变量 ,IsReplenished[a, d]= 


£ 


IsReplenishedl[a, d = | je 
. La, 9 表示 补 钞 ，IsReplenished[a, d]=0 表示 不 补 钞 


4. 目 标 函 数 


本 例 的 目标 是 最 小 化 成 本 。 成 本 是 由 取款 机 内 现 钞 的 占用 以 及 对 取款 机 补 钞 的 费用 组 成 的 。 在 实际 操作 中 ， 如 果 仅 考虑 这 两 部 分 成 本 ， 最 小 化 成 本 得 出 的 最 优 解 必然 是 补 钞 量 为 0， 即 不 对 取款 机 进行 补 
钞 。 然 而 ， 这 种 情形 是 不 能 满足 银行 服务 客户 的 需要 的 。 为 此 ， 需 要 在 成 本 中 新 增加 一 项 : 缺 钞 成 本 ， 即 发 生 缺 钞 情况 时 ， 也 会 产生 一 定 的 费用 。 综 上 ， 本 问题 的 目标 应 为 最 小 化 总 成 本 ， 其 中 总 成 本 包 


A、. 
 。 


. 补 钞 车 的 补 钞 成 本 。 
取款 机 中 现金 占用 产生 的 成 本 。 
. 缺 钞 成 本 。 


因此 ， 目 标 溯 数 为 


Min TotalCost=ReplemshCostWeileght* > IsReplenished|a,d|*cost[al+ >, Smimusla,d| 


a E AIM.d E DATE a E AIM.d E DATE 


“DailyIntrestRate+t Splus[a,d]*CashShortCost 


a E AIM.d € DATE 


其 中 ，ReplenishCostWeight 给 补 钞 费用 成 本 设立 了 一 个 权重 ，DailylntrestRate 表 示 现 钞 每 天 被 占用 的 价格 ，CashShortCost 表 示 单 位 缺 钞 成 本 。 这 样 ， 补 钞 过 多 时 ， 就 会 发 生 补 钞 成 本 和 现金 占用 成 
本 ; 补 钞 过 少时 ， 则 会 发 生 缺 钞 成 本 。3 个 成 本 相互 制衡 ， 也 必然 存在 一 个 最 优 的 方案 ， 使 得 3 个 成 本 之 和 达到 最 小 。 


5 约束 条 件 


本 问题 的 约束 条 件 如 下 。 


. 约束 条 件 之 一 (InvPlusReplenish) : 每 天 补 钞 量 加 上 前 一 天 现金 余额 的 总 和 不 能 超过 取款 机 可 容纳 的 现金 上 限 。 如 果 当 天 为 模型 周期 的 第 一 天 ， 那 么 前 一 天 现金 余额 为 该 取款 机 的 初始 现金 额 。 因 
此 ， 对 于 任意 的 a€ ATM，d€ DATE， 约 来 条件 InvPlusReplenish 可 以 表示 如 下 : 


X[a, dj+ (if d=&zstartdate.then init_inv[a, djelse sminus[a, d-1]) <capacity[al 


: 约束 条 件 之 二 (Slackvariable) : 记 每 天 每 台 取款 机 上 在 d 天 结束 时 预计 的 现金 流 为 S， 那 么 该 现金 流 满足 条 件 : S= 当 天 的 补 钞 量 + 前 一 天 的 现金 余额 - 预计 当天 的 取 钞 金额 。S 的 取 值 可 以 是 正 数 或 者 非 
正 数 。 当 SS 的 取 值 为 正 数 时 ， 表 明 该 天 取款 机 上 的 现金 余额 大 于 0; 反之 ， 当 S$ 的 取 值 为 负数 时 ， 表 明 该 天 取款 机 上 发 生 了 缺 钞 情况 ， 缺 钞 金 额 为 -3$。 由 前 面 决 策 变 量 Splus 和 决策 变量 Sminus 的 定义 可 
知 ，S=Sminus - Spblus。 因 此 ， 对 于 任意 的 aEATM，dEDATE， 有 约束 条 件 : 


Sminus[a, dj-Splus[a, dj=X[a, dj+ (if d=&startdate.then init_inv[a, djelse sminus[a, d-1]) -withdraw[a, d] 


* 约束 条 件 之 三 (Replenish) : 对 于 发 生 补 钞 的 取款 机 来 说 ，0-1 变量 IsReplenished 的 取 值 必须 等 于 1。 该 约束 条 件 可 以 通过 决策 变量 X 与 参数 Capacity 来 表示 。 对 于 a€ ATM，d€《 DATE， 约束 条 件 
Replenish 可 以 表示 成 : 


X[a, dj<=capacity[al*IsReplenished[a, d] 


. 从 上 述 不 等 式 看 出 ， 如 果 X[a，dj>0， 由 于 参数 Capacity 团 始终 大 于 0， 因 此 ，IsReplenished[a， 咯 的 取 值 只 能 是 1。 


. 约束 条 件 之 四 (DailyBudget) : 每 天 所 有 取款 机 的 补 钞 总 量 不 能 超出 预算 。 对 于 任意 的 dEDATE ， 有 : 


之 X[a.d] < budget[d] 


. 约束 条 件 之 五 (MaxNumReplenished) : 每 台 补 钞 车 每 天 能 补给 的 取款 机 的 台数 有 上 限 。 对 于 任意 的 dEDATE，ELOCATION_VTYPE， 有 : 


IsReplenlshedla,d| < countlLLv| 


{a E slice(<*.1> .ATIM LOCATION)} 
. 约束 条 件 之 六 (SplusUB) : 每 天 缺 钞 的 量 不 大 于 预计 的 取 钞 量 。 对 于 任意 的 aE ATM，dEDATE， 有 : 
Splus[a，dj<=withdraw[a，d 
. 约束 条 件 之 七 (SminusUB) : 每 天 现金 余额 不 会 超过 取款 机 能 容纳 现金 的 上 限 。 对 于 任意 的 aEATM，dEDATE， 有 : 


Sminus[a, d]<=capacity[al 


上 述 的 约束 条 件 似乎 比 背 景 知识 中 提 到 的 要 多 ， 这 在 实际 中 是 常见 的 。 事 实 上 ， 对 于 每 一 个 定义 的 变量 ， 都 应 该 考虑 其 取 值 是 否 有 上 界 或 者 下 界 的 约束 。 例 如 ， 上 述 约束 条 件 Replenish、 约 束 条 件 
SplusUB 以 及 约束 条 件 SminusUB 分 别 对 应 值 定义 的 决策 变量 lsReplenished、Splus 以 及 Sminus。 


23.3.3 ”输入 数据 


表 23.4 汇 总 了 ATM 补 钞 问题 建 模 过 程 中 需要 的 全 部 数据 。 


表 23.4 ATM 补 钞 问题 所 需 数 据 集 信 息 


数据 集 名 称 


灶 


说 明 


籽 D 


取款 机 编号 
取 球 机 所 位 于 的 区 域 
™ 每 台 取 款 机 能 容纳 现金 的 上 限 
对 取款 机 补 钞 一 次 发 生 的 费用 
取款 机 编号 
withdraw 日 期 
Withdraw 预计 取 短 金额 
取款 机 编号 
initial 每 台 取 款 机 初期 的 现金 金额 
l 补 钞 总 量 的 上 限 
vehicle 包销 车 
补 钞 车 每 天 能 补给 的 取款 机 数量 的 上 限 


下 面 代 码 用 于 生成 表 23.4 中 的 数据 集 。 





dataatm; 
input atm id $ location $ capacity cost; 
datalines; 





























AU001 L1 150000 400 
A002 L1 150000 400 
A003 L1 150000 800 
A004 L1 100000 400 
A005 L1 100000 800 
A006 L1 100000 800 





run; 
/*this data contains the amount of cash withdrawed per day per atm*/ 
data withdraw; 
input atm id $ date mmddyy1l0. withdraw Q@@; 
format date dated9.; 
datalines; 

























































































A001 05/05/2014 21000 A002 05/05/2014 24000 A003 05/05/2014 21000 
A004 05/05/2014 26000 A005 05/05/2014 19000 A006 05/05/2014 19000 
A001 05/06/2014 30000 A002 05/06/2014 19000 A003 05/06/2014 27000 
A004 05/06/2014 21000 A005 05/06/2014 21000 A006 05/06/2014 21000 
A001 05/07/2014 27000 A002 05/07/2014 20000 A003 05/07/2014 26000 
A004 05/07/2014 18000 A005 05/07/2014 22000 A006 05/07/2014 23000 
A001 05/08/2014 20000 A002 05/08/2014 31000 A003 05/08/2014 20000 
A004 05/08/2014 20000 A005 05/08/2014 24000 A006 05/08/2014 35000 
A001 05/09/2014 31000 A002 05/09/2014 21000 A003 05/09/2014 30000 
A004 05/09/2014 19000 A005 05/09/2014 18000 A006 05/09/2014 34000 
A001 05/10/2014 30000 A002 05/10/2014 40000 A003 05/10/2014 55000 
A004 05/10/2014 26000 A005 05/10/2014 20000 A006 05/10/2014 25000 
A001 05/11/2014 35000 A002 05/11/2014 32000 A003 05/11/2014 35000 

4 15000 A005 05/11/2014 25000 A006 05/11/2014 35000 






































A004 05/11/201 


天 
run; 


data initial; 


AO001 05/05/201 
A002 05/05/201 
A003 05/05/201 
A004 05/05/201 
A005 05/05/201 
A006 05/05/201 


六 





input atm id $ date mmaqdqyy10. init inv; 
datalines; 





心心 心心 心 吃 
CD 


run; 
data budget; 


input date mmddyy10. budget; 
format date date9.; 




















datalines } 

05/05/2014 600000 
05/06/2014 600000 
05/07/2014 600000 
05/08/2014 600000 
05/09/2014 800000 
05/10/2014 800000 
05/11/2014 800000 
run; 


data vehicle; 





input location $ vehicle type $ count; 
datalines; 


Li VL A 
23.3.4 PROC OPTMODEL 人 代码 和 输出 


以 下 为 模型 的 示例 代码 : 











1e 
Ie 





NI oo oo co oo 


t DailyIntrestRate = %sysevalf (0.06/360); 





CC 





startdate = '05May2014'g; 
CashShortCost = 0.008; 
ReplenishCostWeight = 0.1; 











roc optmodel; 
大 


define index sets*/ 
set<str> ATM; 

set<num> DATE; 

set<str> LOCATION; 

set<str, str> AIM LOCATION; 
set<str, str> LOCATION VIYPE; 












































/*define numrical variable to be read from data sets above*/ 


/*read data set*/ 
read data atm into AIM = [atm id] capacity cost; 


/*define decision variable*/ 


*X: 








num capacity{ATIM}; 

num cost{ATM}; 

num budget {DATE}; 

num withdraw{ATM, DATE}; 
num init inv{ATM,DATE}; 
num count {LOCATION VTYPE}; 









































read data atm into AIM LOCATION = [atm id location]; 











read data budget into DATE = [date] budget; 











read data withdraw into [atm id datel] withdraw; 
read data initial into [atm id date] init inv; 

















read data vehicle into LOCATION VTYPE = [location Vehicle typel count }; 














the mount each atm replenished on a specific 
Var X{ATIM, DATE}>=0 integer; 

for {a in ATM} 

for {d in DATE} do; 























PF-- 


end; 

Var IsReplenished{ATM, DATE} binary; 
Var splus{AIM, DATE}>=0 integer; 
Var sminus{ATM, DATE}>=0 integer; 




















f weekday(d)=7 or weekday(d)=1 then fix Xla, 


date; 


d] = 0; *No replenish on saturday and sunday; 


/*ExtraCashCost: cost that results from storing capital in ATM*/ 
/*ReplenishCost: replenish cost each time*/ 









































/*CashShortCost: penalty cost that result from cashout*/ 
impvar ExtraCashCost = sum{a in ATIM, d in DATE}sminus[a, dj*&DailyIntrestRate. } 
impvar ReplenishCost = sum{a in ATM, d in DATE}IsReplenishedl[a, dlj*costlal; 
impvar CashShortCost = sum{a in ATIM, d in DATE}splusl[la, dl]; 








/*define constraints*/ 











con InvPlusReplenish{a in AIM, d in DATE}: 











x[a, d] + (If d =&startdate. then init inv[la, d] else sminus[a, d-1]) 


<= capacityl[lal]; 
con slackvariable{a in AIM, d in DATE}: 
x[a, dl] + splus[a, d] - sminus[a dl] 

















+ (if d =&startdate. then 0 


else sminus[a, d-1]) = withdrawla, dl]; 





con Replenish{a in ATM, d in DATE}: 

x[a, d] <= capacity[lal*IsReplenishedl[a, dl]; 
con DailyBudget{d in DATE}: 

sum{a in ATIM}x[a, d] <= budget[d]; 


























con MaxNumReplenished{d in DATE, <1, Vv> in LOCATION VTYPE}: 

















con SplusUB{a in ATM, d in DATE}: 
splus[a, d] <= withdrawla, dl]; 

con SminusUB{a in ATM, d in DATE}: 
sminus[la, d] <= capacitylal]; 




















/*define objective function */ 











&CashShortCost.*CashShortCost; 





/*call solver*/ 


solve; 


/*save results as data set*/ 
Create data ReplenishPlan from [ATM DATE] Withdraw X IsReplenished Splus Sminus; 
quit; 














运行 上 述 代码 ， 输 出 结果 中 的 汇总 信息 如 图 23.12 所 示 。 


The QPTMODEL Procedure 


Colver 


Sumfa in slice(<*, 1> , AIM LOCATION) }IsReplenished[a, dl<= count[l1, v]; 


min TotalCost = ExtraCashCost + &ReplenishCostWeight.*ReplenishCost 十 





solution Summary 


MILP 


Objective Value 


























Presolve Time 


Es 0.09 





图 23.12 取款 机 补 钞 模型 求解 汇总 信息 


生成 的 包含 最 优 解 的 数据 集 work.Replenishplan 如 图 23.13 所 示 。 例 如 ， 方 框 中 数据 表示 ， 编 号 为 A001 的 取款 机 在 DATE=19848 (SAS 内 部 日 期 的 存储 形式 ) 这 一 天 的 补 钞 量 为 98000 元 ， 当 天 期 末 的 
现金 余额 预计 为 77000 元 。 


= = l= 
Bomoosos ss So Is 





图 23.13 ”数据 集 wotk.Replenishplan 


事实 上 ， 还 可 以 对 数据 集 work.Replenishplan 进 行进 一 步 的 加 工 。 例 如 ， 以 下 代码 将 每 天 的 补 钞 量 X 和 预计 的 缺 钞 量 SPlus 以 二 维和 矩阵 的 形式 表示 出 来 ( 行 表示 取款 机 ， 列 表示 天 ) 。 


proc transpose data = ReplenishPlan out = DailyPlan name = ATM prefix = day; 
by ATM 
Var xX? 
run; 
proc print data = DailyPlannoobs; title "每 日 补 钞 计划 " ;run; 
proc transpose data = ReplenishPlan out = Splus name = AIM prefix = day; 
by ATM; 
varsplus; 
run; 
proc print data = Splusnoobs; title "变量 Splus 的 取 值 "; run; 





运行 代码 ， 输 出 结果 如 图 23.14 所 示 。 从 图 中 可 以 看 出 ， 该 补 钞 计 划 在 周 六 以 及 周 天 没有 发 生 补 钞 计划 。 


变量 Splus 表 示 缺 钞 的 情况 。 从 图 23.15 可 以 看 出 ， 在 第 一 天 ， 编 号 为 A005 与 A006 的 取款 机 会 发 生 缺 钞 。 其 余 情 况 下 ， 都 不 会 发 生 缺 钞 。 


日 补 钞 计划 














A003 
A004 65000 0 
A005 0 67000 

0|79000 0 0 9ooo 0 0 





图 23.14 每 日 补 钞 计划 





计量 和 plus 的 取 值 


AIM 了 ay1 dayz day3 day4 daynmn dayb day/ 
AUU1 0 | 0 0 0 0 / 0 
0 0 
0 0 
OO 0 
0 

0 





UD 
AD0j 0 
AD04 0 
ADO0S 19000 
AD06 19000 


加 || 人 || 名 
辟 | 导 || 名 | 扣 
SID| 已 


图 23.15 “变量 Splus 的 取 值 

功能 与 技巧 总 结 : 
对 本 案例 中 展示 的 PROC OPTMODEL 的 功能 进行 总 结 如 下 : 

. 确定 问题 类 型 为 MILP (混合 整数 线性 规划 问题 ) 。 

对 0-1 变 量 进 行 定义 并 使 用 。 

. 运用 READ DATA 语 名 读 取 多 个 数据 集 。 

. 使 用 IMPVAR 语 句 声 明 隐 式 变 量 。 

` 在 约束 条 件 定义 中 ， 使 用 IF 语 名。 
带 绝对 值 的 变量 的 处 理 ， 具 体 方法 如 下 : 
引进 两 个 新 的 变量 ,使 用 新 变量 来 代替 原 变 量 ， 以 达到 去 除 绝对 值 的 目的 。 两 个 新 的 变量 分 别 代 表 原 变量 的 正 部 与 负 部 。 假 设 变量 为 X， 正 部 与 负 部 的 符号 分 别 记 为 X* 和 X ， 二 者 的 定义 如 下 : 
X'=max{X, 0} 
X=max{-X, 0} 
X 与 |X| 二 者 可 以 通过 正 部 与 负 部 表示 为 如 下 形式 : 
X=X!-X- 

|X|=X'*+X- 


在 上 例 的 建 模 中 ， 实 际 上 正 是 引入 了 两 个 新 的 变量 来 代表 S 的 正 部 与 负 部 。 


23.4 ”本 章 小 结 


本 章 介绍 了 常见 的 用 于 整数 线性 规划 以 及 混合 整数 线性 规划 的 方法 ， 即 分 支 定 界 法 与 割 平面 法 。 分 支 定 界 法 根据 伴随 问题 的 非 整数 最 优 解 对 原 问 题 进行 分 支 定 界 ， 然 后 对 分 支 进行 求解 以 达到 对 原 问题 
进行 求解 的 目的 。 割 平面 法 通过 割 平面 不 断 缩小 可 行 域 ， 达 到 求解 的 目的 。SAs 中 的 MILP 求 解 器 使 用 了 将 两 种 方法 进行 结合 的 分 支 割 平 面 法 。 


0-1 变 量 是 一 类 特殊 的 整数 型 变量 ， 其 取 值 只 能 为 0 或 者 1。 在 建 模 过 程 中 ，0-1 变 量 可 以 用 来 描述 是 否 执行 某 个 操作 或 者 某 个 事件 是 否 发 生 。 本 章 的 取款 机 补 钞 问题 分 析 了 如 何 从 商业 问题 出 发 ， 进 行 建 
模 求解 ， 该 过 程 涉及 0-1 变 量 的 使 用 和 带 绝 对 值 的 变量 的 处 理 技巧 等 。 


第 24 章 “优化 建 模 实 例 


本 章 将 结合 两 个 非常 接近 实际 项 目的 案例 ， 展 示 运 用 SAS/OR 解 决 实际 优化 问题 的 基本 思路 和 方法 : 分 析 问 题 、 建 立 数学 模型 、 准 备 输入 数据 、 编 写 PROC OPTMODEL 代 码 并 分 析 输 出 结果 。 同 时 介绍 
PROC OPTMODEL 中 各 种 语句 的 用 法 和 使 用 技巧 。 


24.1.1 ”问题 的 提出 


装 箱 问题 (Bin Packing) 是 一 个 经 典 的 组 合 优化 问题 ， 有 着 广泛 的 应 用 ， 在 日 常生 活 中 也 屡见不鲜 ， 比 如 集装箱 的 装 箱 问 题 。 装 箱 问题 可 分 为 一 维 装 箱 问 题 、 二 维 装 箱 问 题 和 三 维 装 箱 问题 3 种 。 一 维 
法 箱 问 题 只 考虑 一 个 因素 ， 比 如 重量 、 体 积 或 者 长 度 等 ， 二 维 凌 箱 问 题 考虑 两 个 因素 ， 比 如 给 定 一 张 算 形 的 纸 ， 要 求 从 这 张 纸 上 裁剪 出 给 定 的 、 大 小 不 一 的 形状 ， 求 一 种 裁剪 方法 使 得 裁 音 剩 下 的 废料 面积 
的 总 和 最 小 ， 常 见 的 问题 包括 对 场地 中 (考虑 长 和 宽 ) 各 功能 区 域 的 划分 、 停 车 场 区 位 的 划分 、 包 装 材料 的 裁 切 等 ， 三 维 装 箱 问题 要 考虑 3 个 因素 ， 比 如 长 、 宽 、 高 ， 在 装 车 、 装 船 或 装 集 装 箱 时 ， 要 考虑 这 
3 个 维度 都 不 能 超过 给 定 值 。 


这 里 要 介绍 的 一 个 案例 是 来 自 某 运输 公司 的 集装箱 问题 。 某 运输 公司 有 一 个 码头 ， 每 周 都 有 一 定量 的 物品 要 装 入 集装箱 中 ， 然 后 从 码头 发 往 别处 。 每 个 集装箱 能 容纳 物品 的 最 大 总 重量 和 最 大 总 体积 是 
固定 的 ， 总 重量 不 能 超过 4500 公 斤 ， 总 体积 不 能 超过 350 立 方 贡 尺 ， 但 每 件 物品 的 重量 和 体积 各 有 差异 。 这 时 ， 集 装 箱 的 使 用 率 需要 从 以 下 两 个 方面 考虑 : 


个 集装箱 的 载重 使 用 率 = 集 装 箱 内 物品 的 总 重量 /集装箱 所 能 装载 的 最 大 总 重量 


和 


* 每 个 集装箱 的 体积 使 用 率 = 集装箱 内 物品 的 总 体积 /集装箱 所 能 装载 的 最 大 总 体积 
该 运输 公司 希望 解决 的 问题 如 下 : 
1) 从 成 本 出 友 ， 确 定 用 最 小 的 集装箱 数量 来 装载 这 批 物品 。 


2) 在 确定 最 小 的 集装箱 数量 之 后 ， 确 定 最 合理 的 装 箱 方案 ， 使 得 每 个 集装箱 的 载重 使 用 率 和 体积 使 用 率 相对 均衡 。 


24.1.2 ”数学 模型 


1. 索 引 集 和 索引 集中 的 项 


该 优化 问题 中 需要 用 到 的 索引 集 如 下 。 
. ITEM: 集合 ITEM 中 的 项 为 每 件 物品 的 JD，i€ITEM, i 代表 物品 的 ID。 
. CONTID: 集合 CONTID 中 的 项 为 集装箱 的 ID，cECONTID，c 代 表 集 装 箱 的 ID。 


. ITEM_CONTID: 集合 TTEM_CONTID 的 项 为 二 元 组 <i,c>, 二 元 组 倪 一 个 位 置 失 络 握 1 信 交 物品 所 ID， 玩 二 个 位 团 失 族 据 c 代 并 仁 类 适 罗 ID。 


2. 参 数 和 参数 数组 


下 面 是 该 问题 需要 用 的 参数 情况 ， 如 表 24.1 所 示 。 


表 24.1 集装箱 问题 中 的 参数 








参数 名 称 参数 名 称 描 述 
weight[i] 每 件 物品 的 重量 每 个 集装箱 的 平均 装载 体积 
cubicfeet[j] 每 件 物品 的 体积 每 个 集装箱 装载 重量 的 上 限 
aveweight 每 个 集装箱 的 平均 装载 重量 cubicfeet ub 每 个 集装箱 装载 体积 的 上 限 
3. 变 量 
了 解 了 参数 后 ， 再 来 看 看 问题 中 涉及 的 变量 ， 如 表 24.2 所 示 。 
表 24.2 集装箱 问题 中 的 变量 
Container[c] 二 分 变量 ，Container[c]=1 表示 该 集装箱 被 使 用 ，Container[c]=0 表示 该 集装箱 未 被 使 用 


二 分 变量 , ItemInContainer[i.c]=1 表示 物品 1 被 放 入 集装箱 c 中 , ItemInContainer[ic]=0 


ItemlInContainer[i.c] tr 
表示 物品 1 未 被 放 人 集 疫 箱 c 中 


WeightofContainer[c] 集 汉 箱 c 中 所 载 物品 的 总 重 
CfeetofContainer[c] 集装箱 c 中 所 载 物品 的 总 体积 
集 疫 箱 c 中 所 载 物品 的 总 重量 与 每 个 集 交 箱 平均 重量 的 差异 之 最 小 上 界 ， 用 于 衡量 各 
Wld] 储 壮 人 箱 武 重 均 箱 
集 闭 逢 ES" 时 9 衡 性 
V[c] 集 疣 箱 c 中 所 载 物品 的 总 体积 与 每 个 集 半 箱 平均 体积 的 差异 之 最 小 上 界 ， 用 于 衡量 各 


集装箱 体积 均衡 性 


4. 目 标 国 数 


该 优化 问题 的 第 一 个 目标 是 最 小 化 集装箱 的 使 用 数量 。 


Min Min1Counts= 2 Conhntalner| c | 
c¢ ECONTID 


第 二 个 目标 是 在 最 小 化 集装箱 数量 的 基础 上 ， 使 得 每 个 集装箱 的 载重 使 用 率 和 体积 使 用 率 尽 可 能 均衡 。W[c] 和 V[c] 分 别 代表 每 个 集装箱 所 载 物品 的 重量 和 体积 与 平均 值 的 差异 之 最 小 上 界 ， 那 么 对 于 不 
同 的 装载 方法 ， 如 果 某 种 装载 方法 使 得 每 个 集装箱 与 平均 值 的 差异 的 最 小 上 界 之 和 达到 最 小 ， 那 么 该 种 装载 方法 就 是 最 优 的 装载 方法 。 因 此 优化 目标 和 目标 函数 如 下 : 


Min Variance= 2 (W[cl+V[c]) 


c ECONTID 


5. 约 束 条 件 
该 优化 问题 必须 满足 如 下 约束 条 件 


. 对 于 每 一 件 物品 1 EITEM， 只 能 装 入 一 个 集装箱 中 。 


六 ItemJInContamerllc|=1 


c ECONTID 


. 对 于 每 一 个 集装箱 cECONTID， 所 装载 物品 的 重量 可 以 表示 为 如 下 形式 : 


WeightotContamerlc|= 2 ItemJInContaimnerllc| weightl1l 


1 E 


. 对 于 每 一 个 集装箱 cE€ CONTID， 所 装载 物品 的 体积 可 以 表示 为 如 下 形式 : 


CfeetofContamer[c|= bp ItemInContamnerli.c|*cubicteet[1| 


对 于 每 一 个 集装箱 cE€ CONTID， 所 装载 物品 的 重量 不 能 超过 装载 重量 的 上 限 。 
WeightofContainet[c] < Containet[c]*weight_ub 

. 对 于 每 一 个 集装箱 cECONTID， 所 装载 物品 的 体积 不 能 超过 装载 体积 的 上 限 。 
CfeetofContainert[c]< Containet[c]j#xcubicfeet_ub 

“ 对 于 每 一 个 集装箱 cE€ CONTID，Wlc] 与 所 装载 物品 的 重量 和 每 个 集装箱 平均 重量 有 如 下 关系 : 
W[cl>| WeightofContainer[c]-avgweight| 

“ 对 于 每 一 个 集装箱 cE€ CONTID，V[d] 与 所 载 物品 的 体积 和 每 个 集装箱 平均 体积 有 如 下 关系 : 
VId]>|CfeetofContainer[c]-avgcfeet| 


全 注意 参数 avgweight 和 参数 avgcfeet 是 通过 PROC OPTMODEL 的 优化 结果 计算 所 得 的 。 后 面 会 给 出 详细 的 信息 。 
24.1.3 ”输入 数据 
下 列 代 码 模拟 了 该 优化 模型 中 需要 使 用 的 输入 数据 集 work.shipped _items， 该 数据 集中 包含 iem id (物品 的 ID) 、weight kilo (物品 的 重量 ) 和 volume _cfeet (物品 的 体积 


data work.data shipped items; 
do i=1 to 200; 








item id="XITEM" | | Left (trim( N )); 

weight kilo=input (ranuni (9999)*100,5.2); 
volume cfeet=input (ranuni (999999)*75,5.2); 
output; 























end; 
run; 


从 第 21 章 的 介绍 中 得 知 ， 可 以 将 非 数 组 的 参数 数据 存储 在 只 包含 一 条 观测 的 数据 集中 ， 然 后 通过 READ DATA 语 句 给 对 应 的 参数 赋值 。 其 实 ， 这 种 数据 也 可 以 使 用 SAS 宏 变量 来 存储 ， 每 个 宏 变 量 中 只 存 
储 一 个 参数 数据 。 本 例 中 ， a a 如 下 : 


Slet weight ub=2000; 
$let cubicfeet ub=1000; 











24.1.4 ” PROC OPTMODEL 人 代码 和 输出 


在 这 个 优化 问题 中 有 两 个 目标 ， 第 一 个 目标 是 求 得 最 小 集装箱 数量 ， 第 二 个 目标 是 建立 在 第 一 个 目标 实现 的 基础 之 上 ， 求 得 尽量 均衡 的 装 箱 方案 。PROC OPTMODEL 中 的 求解 器 一 次 只 能 求解 一 个 目 
标 ， 那 么 就 从 第 一 个 目标 入 手 。 


首先 ,假设 每 件 物品 都 装 在 不 同 的 集装箱 中 ， 那 么 最 多 需要 的 集装箱 的 数量 就 等 于 物品 的 总 件数 ， 将 最 多 需要 的 集装箱 个 数 存储 在 宏 变 量 item_cnt 中 。 代 码 如 下 : 





proc sql; 
select count (item id) into :item cnt 
from work.data shipped items; 











quit; 
proc optmodel printlevel=1; 
set<str> ITEM; 
set<num> CONTID=1http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/..&item cnt; 


















































set ITEM CONTID ={i in ITEM，C in CONTID}; 
num weight{ITEM} init 0; 

num cubicfeet{ITEM} init 0; 

read data data shipped items nomiss into 






























































TEM= [item iqd] 
weight=weight kilo 


cubicfeet=volume cfeet; 
































其 中 ， 索 引 集 CONTID 的 项 为 1{、2、...、&item_cnt。 第 一 个 READ DATA 语 句 填充 了 集合 ITEM， 并 将 数据 集中 变量 weight_kilo 和 volume _cfeet 分 别 赋值 给 了 参数 数组 weight 和 cubicfeet。 


选项 PRINTLEVEL 设 定 了 PROC OPTMODEL 的 输出 级 别 ，PRINTLEVEL 有 3 种 取 值 ， 分 别 为 0、1、2。 默 认 情 况 下 ， 该 选项 PRINTLEVEL=1， 在 结果 窗口 将 会 输出 问题 汇总 报表 (Problem 
Summary) 、 优 化 结果 报表 (Solution Summary) 和 求解 性 能 信息 (Performance Information) 。PRINTLEVEL= 0 表示 不 输出 任何 报表 。 


接着 ， 定 义 变量 Container、lItemlnContainer、WeightofContainer 和 CfeetofContainer。 由 于 变量 WeightofContainer 和 CfeetofContainer 分 别 可 以 用 变量 ItemlnContainer 和 人 参数 数组 组 成 的 表 
达 式 表示 ， 因 此 ， 可 以 将 变量 WeightofContainer 和 CfeetofContainer 定 义 成 隐 式 变量 ， 这 样 可 以 减少 优化 问题 中 决策 变量 和 约束 条 件 的 数量 ， 提 高 求解 效率 。 代 码 如 下 : 








Var Container{CONTID} binary; 
var ItemInContainer{ITEM CONTID} binary; 
impvar WeightOfContainer{c in CONTID} = sum{<i, (c)> in ITEM CONTID} 












































(ItemInContainer[i,c]*weight [i]); 
impvar CubicOofContainer{c in CONTID} = sum{<i, (c)> in ITEM CONTID} 
(ItemInContainer[i,c]*cubicfeet[i]); 



























































这 里 的 代码 “impvar WeightOfContainer{c in CONTID}=sumt{<i,(c) >in ITEM_CONTID} (ltemlnContainer[i，clj*weight[) ; ”在 SUM 集 成 表达 式 中 使 用 了 一 种 新 的 表达 形式 <j， (c) >， 
这 段 代 码 等 价 于 如 下 代码 : 























impvar WeightOfContainer{c in CONTID} = sum{i in ITEM:<i,c> in ITEM CONTID} 
(ItemInContainer[i,c]*weight [i]); 


























下 面 的 语句 用 来 声明 约束 条 件 和 目标 国 数 。 


/*one item should only exist in only one container*/ 
con Oneitem in onecontainer{<i> in ITEM}: 
sum{<(i),c> in ITEM CONTID} JItemInContainer[i,c]=1; 
/*the total weights in one container should not exceed the upper bound*/ 
con Container weight bound{c in CONTID}: 
WeightofContainer[c]<=Container[c]*&weight ub.; 
/*the total cubic feet in one container should not exceed the upper bound*/ 
con Container cubicfeet bound{c in CONTID}: 
CubicOofContainer[c]<=Container[c]*&cubicfeet ub.; 
min MiniCounts=sum{c in CONTID}Container[c]; 
expand; 

















































































































其 中 ，EXPAND 语 句 输出 了 上 面 定 义 的 优化 模型 ， 如 图 24.1 所 示 。 该 语句 是 可 选 语句 ， 主 要 用 于 程序 调试 ， 便 于 用 户 查看 PROC OPTMODEL 建 立 的 模型 是 否 和 设想 中 的 模型 一 致 。 


Impvar CubicOfContainer[199] = S54.4*1ltemlnContainer[XITEMT, 199] 

Impvar CubicOfContainer[200] = S54.4*ItemlnCGContainer[XITEMT GOOD] 

Minimize MiniCounts=Container[1] + Container[2] + Container[3] + Container[4] + Container[5] + 
Container[6] + Container[7] + Container[8] + Container[9] + Container[10] + Container[11] + 


Container[i2] + GContainer[13] + Gontainer[14] + Gontainer[15] + CGContainer[16] + Gontainer[17] + 
Container[18] + Container[19] + Container[20] + Container[21] + Container[22] + Container[l23] + 
Container[24] + GContainerl23] + Container[l26] + GContainer[ler] + Container[l28] + GContainer[lz29] + 





图 24.1 EXPAND 语 名 部 分 输出 内 容 


因为 决策 变量 ltemlnContainer 和 Container 是 二 分 变量 ， 因 此 SOLVE 语 句 将 调用 MILP 求 解 器 求解 该 问题 。 选 项 MAXTIME=600 用 于 设 定 求解 时 间 的 上 限 (求解 时 间 由 生成 问题 的 时 间 和 和 迭代 求解 时 间 
两 部 分 组 成 ) ， 这 里 指定 的 时 间 上 限 是 600 秒 。 如 果 不 指 定时 间 上 限 ， 求 解 器 将 不 断 迭 代 求 解 ， 直 到 求 得 最 优 解 。 在 初次 求解 和 调试 MILP 问 题 的 时 候 ， 建 议 使 用 选项 MAXTIME= 来 设 定时 间 上 限 ， 并 根据 日 
志 的 输出 结果 来 判断 该 问题 求解 的 难 易 程度 ， 再 决定 在 最 终 的 模型 中 是 否 设 定 运行 时 间 上 限 。 代 码 如 下 : 


solve obj MiniCounts with milp /maxtime=600; 


下 面 的 CREATE DATA 语 句 根 据 优化 结果 创建 了 两 个 输出 数据 集 work.item _in_container 和 work.container kpi。{<i,c>in ITEM_CONTID: ItemlnContainer[i，c]=1} 表 示 只 输出 变量 
ltemInContainer[li，c]=1 的 和 和 c 的 组 合 ， 并 保存 到 数据 集 work.item_in_container 中 。 这 里 和 c 都 是 虚拟 参数 ， 其 值 分 别 为 物品 的 1D 和 集装箱 的 ID。 


{<c>in CONTID: Container[c]=1 表 示 仅 将 最 优 解 中 Container[c]=1 的 集装箱 的 ID 输出 到 数据 集 work.container_kpi 中 ， 同 时 输出 每 个 集装箱 的 总 重量 和 和 总体 积 。 代 码 如 下 : 


/*output result*/ 

create data work.item in container from [item id container id]={<i, c> in IIEM CONTID: 

temInContainerl[i,c]=1} weight kilo=Weight[i] volume cfeet=cubicfeet[il]; 

create data work.container kpi from [container id]={<c> in CONTID: Container[c]=1} 
Total Weight=WeightOfContainer[c] Total Cubic=CubicOofContainer[c]; 






















































































quit; 


下 


上 述 PROC OPTMODEL 代 码 执行 后 ， 结 果 窗口 输出 了 该 问题 的 问题 汇总 报表 、 求 解 结果 报 表 和 求解 性 能 报表 ， 如 图 24.2 所 示 。 从 间 题 汇总 报表 中 的 Solution Status 为 Optimal 可 知 ， 该 问题 已 经 求 得 最 
优 解 ， 也 表示 MILP 求 解 器 在 600 秒 之 内 已 经 迭代 得 到 了 最 优 解 。 


The OPTMODEL Procedure 
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Vinmization 
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Number of Constraints 
Linear LE (<=) 
























Number of Threads Integer Infeasibility 





图 24.2 例 24.1PROC OPTMODEL 输 出 内 容 
至 此 ， 该 问题 的 第 一 个 优化 目标 ， 即 最 小 的 集装箱 数量 已 经 求 得 ， 为 8 个 。 


数据 集 work.item_in_container 和 数据 集 work.container_kpi 内 容 如 图 24.3 所 示 。 
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图 24.3 ”数据 集 wotk.item_in_conhtainet 和 wotk.containet kbpi 部 分 内 容 


每 个 集装箱 的 体积 使 用 率 基 本 比较 均衡 (除了 第 8 个 集装箱 的 容积 只 使 用 了 68.78cubicfeet) ， 但 每 个 集装箱 的 载重 使 用 率 差 别 比较 大 。 接 下 来 要 考虑 的 就 是 ， 如 何 装载 可 以 使 得 这 个 8 个 集装箱 的 重量 
和 容积 使 用 率 尽 量 均衡 。 现 在 调用 第 二 段 PROC OPTMODEL 程 序 求解 第 二 个 目标 下 的 优化 问题 。 


首先 ， 根 据 第 一 个 优化 问题 的 结果 求 得 每 个 集装箱 的 平均 装载 重量 和 平均 装载 体积 ， 并 保存 在 宏 变 量 avgweight 和 avgcubicfeet 中 。 代 码 如 下 : 


proc sql; 

select avg (Total Weight),avg(Total Cubic) into :avgweight, :avgcubicfeet 
from container kpi; 
quit; 











接 下 来 ， 声 明 第 二 个 问题 中 需要 使 用 的 索引 集 、 参 数 和 参数 数组 。 需 要 注意 的 是 ， 除 了 第 一 个 问题 中 使 用 的 索引 集 和 参数 数组 外 ， 还 声明 了 一 个 索引 集 INITIAL_ITEM_CONTID， 用 来 保存 第 一 次 优化 
结果 中 物品 的 装载 方法 。 代 码 如 下 : 


proc optmodel; 














set<num> CONTID; 
set<str,num> INITIAL ITEM CONTID; 
set ITEM CONTID ={i in ITEM, c¢ in CONTID}; 
num weight{ITEM} init 0; 
num cubicfeet{ITEM} init 0; 
num avgweight = &avgweight.; 

num avgcfeet = &avgcubicfeet.; 











































































































下 面 的 语句 声明 了 第 二 个 问题 中 需要 使 用 的 决策 变量 和 隐 式 变量 。 和 第 一 个 问题 不 一 样 的 是 ， 第 二 个 问题 中 没有 声明 变量 Container， 因 为 从 第 一 个 问题 的 最 优 解 中 ， 已 经 得 到 集装箱 的 最 小 数量 ， 并 
已 确定 哪些 集装箱 被 使 用 、 哪 些 集装箱 不 需要 使 用 了 。 这 里 另外 声明 了 变量 W 和 V， 分 别 用 于 衡量 集装箱 载重 的 体积 的 均衡 性 。 


























Var ItemInContainer{ITEM CONTID} binary; 

var W{CONTID}>=0; 

Var V{CONTID}>=0; 

impvar WeightOfContainer{c in CONTID} = sum{<i, (c)> in ITEM CONTID} (ItemInCont 
ainer[i,c]*weight[i]); 

impvar CubicOfContainer{c in CONTID} = sum{<i, (c)> in ITEM CONTID} (ItemInConta 
inerl[i,c]*cubicfeet[i]); 

























































































这 里 的 约束 条 件 Oneitem _in_onecontainer、Container_weight_bound 和 Container_cubicfeet_bound 和 第 一 个 问题 中 的 基本 一 样 ， 保 证 每 件 物品 都 放 入 一 个 集装箱 中 ， 并 且 每 个 集装箱 都 不 超过 载 
重 上 限 和 体积 上 限 。 代 码 如 下 : 


/*one item should only exist in only one container*/ 

con Oneitem in onecontainer{<i> in ITEM}: 

sum{<(i),c> in ITEM CONTID} ItemInContainer[i,c]=1; 

/*the total weights in one container should not exceed the upper bound*/ 

con Container weight bound{c in CONTID}: 

Weighto fContainer[c]<=&weight ub.; 

/*the total cubic feet in one container should not exceed the upper bound*/ 

con Container cubicfeet bound{c in CONTID}: 
CubicOofContainer[c]<=&cubicfeet ub.; 































































































决策 变量 W 和 V 必 须 分 别 满足 约束 条 件 W[contid]>|WeightofContainer[contid]-avgweight| 和 V[contid]>|CfeetofContainer[contid]-avgcfeet|。 这 两 个 约束 条 件 中 都 含有 绝对 值 符号 ， 这 属于 非 线性 
约束 条 件 。 一 般 来 说 ， 非 线性 规划 比较 难以 求解 ， 但 是 可 以 通过 一 定 的 技巧 ， 将 这 里 的 绝对 值 约束 条 件 转化 成 线性 约束 条 件 


具体 从 以 下 两 个 方面 考虑 : 

当 WeightofContainer[contid]-aveweight 宇 0 时 ， 约 束 条 件 为 
Wilcontid] >WeightofContainet[contid]-aveweight 

当 WeightofContainer[contidj-aveweight 二 0 时 ， 约 束 条 件 为 
Wlcontid| >aveweight-WeightofContainert[contid] 


同 理 ， 约 束 条 件 V[contid]>|CfeetofContainer[contid]-avgcfeet| 也 可 以 转化 成 两 个 线性 约束 条 件 。 代 码 如 下 : 





con Lb weight{c in CONTID}: WeightofContainer [c] we |] 
con Ub weight{c in CONTID}: avgweight-WeightOofContainer[c]<=W[c]; 
con Lb volume{c in CONTID}: CubicOofContainer[c]-~avgcf feet<=V[c]; 

con Ub volume{c in CONTID}: avgcfeet-CubicOofContainer[c]<=V[c]; 















































第 二 个 目标 函数 如 下 : 





min Variance=sum{c in CONTID} (WI[c]j+V[c]); 


下 面 使 用 了 3 个 READ DATA 语 句 分 别 将 原始 数据 集 work.data_shipped items 和 第 一 个 目标 的 优化 结果 work.container kpi、work.item _in_container 读 取 进 来 。work.container kpi 中 变量 
container id 的 值 被 赋 给 了 索引 集 CONTID，work.item _in_container 中 的 item_id 和 container id 被 联合 赋 给 了 集合 INITIAL ITEM_CONTID。 





read data work.data shipped items nomiss into 
TEM=[item id] 

weight=weight kilo 
cubicfeet=volume cfeet; 

read data work.container kpi nomiss into 

CONTID=[container id]; 

read data work.item in container nomiss into 

NITIAL ITEM CONTID=[item id container id]; 






























































下 面 的 FOR 语 句 为 决策 变量 ltemlnContainer、W 和 V 都 赋予 了 初 值 。 





/*assign initial solution*/ 

for {<i,c> in INITIAL ITEM CONTID} JItemInContainer[i,c]=1; 

for {c in CONTID} do; 
W[c]=&weight ub.; 
VIcl=&cubicfeet ub.; 















































end; 





在 调用 MILP 求 解 器 时 ， 选 项 PRIMALIN 使 得 MILP 求 解 器 可 以 使 用 决策 变量 的 当前 值 作为 优化 的 初始 解 。 如 果 决 策 变量 的 当前 值 不 是 当前 优化 问题 的 可 行 解 ，MILP 求 解 器 将 会 帮助 当前 解 自动 修复 ， 并 
将 修复 后 的 解 作 为 初始 解 。 对 于 有 些 MILP 问 题 ， 一 组 合适 的 初始 整数 解 可 以 大 大 降低 MILP 求 解 器 的 求解 时 间 。 使 用 选项 PRIMALIN 求 解 的 代码 如 下 : 


solve with milp / primalin maxtime=400; 

/*output result*/ 

create data work.blance item in container from [item id container id]= 
{<i, c> in ITEM CONTID: ItemInContainer[i,c]=1} weight kilo=Weight [i] 
volume cfeet=cubicfeet[i]; 

create data work.balance container kpi from [container id]l={<c> in CONTID)} 


Total Weight=WeightOfContainer[c] Total Cubic=CubicOofContainer[c]; 



















































































quit; 





将 MILP 求 解 时 间 设 为 400 秒 后 ， 每 个 集装箱 的 载 量 和 体积 被 存储 到 work.balance_container_kpi 中 ， 数 据 集 内 容 如 图 24.4 所 示 。 和 图 24.3 相 比较 ， 每 个 箱子 的 装载 重量 和 体积 的 均衡 性 都 有 了 很 大 的 改 


过， 









Total_\Weight 
1173 178 878 80) 
1174.528 882.484 
1181.739 884.018 
1168.345 875.573 
1180.724 880.761 
1138.73 B72bd4 





图 24.4 ”数据 集 work.balance_container kpi 的 内 容 


需要 指出 的 是 ， 第 二 个 问题 在 MILP 求 解 器 运行 400 秒 后 ， 并 没有 达到 最 优 解 。 由 于 运行 时 间 已 经 达到 400 秒 ， 系 统 将 当前 解 作 为 最 优 解 输 出 。 同 时 日 志 信 息 和 结果 窗口 都 输出 到 达 运 行 时 间 上 限 的 信 
息 ， 如 图 24.5 所 示 。 
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图 24.5 ”运行 时 间 达 到 上 限时 的 日 志 信息 和 输出 结 
如 果 将 选项 MAXTIME= 设 定 的 时 间 增 大 ， 当 前 解 应 该 可 以 得 到 进一步 改善 。 


在 这 个 例子 中 ， 先 后 两 次 调用 了 PROC OPTMODEL， 并 且 注 意 到 两 个 模型 中 的 绝 大 部 分 索引 集 和 人 参数 数组 都 相同 ， 只 是 决策 变量 和 约束 条 件 不 尽 相 同 。 在 这 种 情况 下 ， 除 了 调用 多 段 PROC 
OPTMODEL 程 序 分 别 建立 模型 以 外 ， 也 可 以 在 同一 个 PROC OPTMODEL 程 序 中 使 用 PROBLEM 语 句 来 申明 不 同 的 子 模型 ， 然 后 运用 USE PROBLEM 语 句 调用 不 同 的 子 模型 分 别 求解 。 在 不 同 的 子 模型 中 ， 
可 以 共用 共同 的 索引 集 和 参数 。 读 者 可 以 查看 SAS 帮 助 文档 了 解 PROBLEM 语 句 和 USE PROBLEM 语 句 的 具体 语法 。 


24.1.5 ”功能 与 技巧 汇总 


该 优化 问题 是 一 个 混合 整数 线性 规划 问题 ， 针 对 该 实例 , 用 到 了 PROC OPTMODEL 中 如 下 的 功能 和 技巧 : 
声明 数据 类 型 为 数值 型 、 字 符 型 和 二 元 组 的 索引 集 。 
. 运用 READ DATA 语 句 读 取 多 个 数据 集 。 
. 运用 IMPVAR 语 名 声明 隐 式 变量 。 
. 运用 EXPAND 语 多 展示 模型 。 
` 使 用 〈: ) 进行 索引 集中 项 的 筛选 。 
* 线性 化 含 绝对 值 符号 的 约束 条 件 。 
. 调用 MILP 求 解 器 。 
. 使 用 选项 MAXTIME= 设 定 运行 时 间 。 
. 运用 CREATE DATA 语 名 创建 多 个 数据 集 。 


` 使 用 选项 PRIMALIN 使 得 MILP 求 解 器 利用 初始 值 进行 求解 。 


24.2 ”运输 排 程 问题 
24.2.1 ”问题 的 提出 


某 汽车 制造 商 有 一 个 生产 基地 ， 每 天 按 一 定 的 生产 计划 生产 各 种 配置 、 各 种 颜色 的 汽车 ， 并 根据 一 定 的 调度 计划 通过 船舶 、 火 车 或 者 公路 运往 9 个 地 区 仓库 (WH1~WH9) 。 运 输 网 络 如 图 24.6 所 示 。 





图 24.6” 菜 汽车 制造 商 的 运输 网 络 


由 于 码头 和 火车 站 的 容量 有 限 ， 以 及 调度 安排 的 高 复杂 性 ， 很 多 从 生产 线 下 来 的 汽车 并 不 能 够 第 一 时 间 被 安排 运往 码头 或 者 火车 站 ， 只 能 先 人 存放 到 生产 基地 的 仓库 中 ， 供 后 续 调 度 。 为 了 使 得 生产 线 能 
够 持续 运行 ， 生 产 基 地 仓库 往往 需要 设 定 比较 大 的 库容 ， 以 容纳 从 生产 线 下 来 而 没有 被 安排 运往 码头 或 者 火车 站 的 汽车 。 


通过 长 期 的 运营 司 意识 到 当前 的 调度 计划 存在 以 下 问题 


" 由 于 调度 计划 不 够 完善 ， 基 地 仓库 必须 长 期 保持 较 大 的 库容 。 每 辆 汽车 在 基地 仓库 的 国定 存放 成 本 很 大 ， 占 库存 成 本 的 80% 以 上 。 因 为 不 管 存放 时 间 是 多 少 〈1 个 小 时 、2 个 小 时 或 者 1 天 、2 天 ) ， 
辆 从 生产 线 下 来 的 汽车 都 会 在 基地 仓库 中 发 生 一 笔 国 定 的 存放 成 本 。 因 此 ， 如 果 可 以 减少 进 库 汽 车 的 数量 ， 特 别 是 减少 短 时 间 停 放 的 进 库 汽 车 数量 ， 将 会 为 公司 节约 巨大 的 成 本 。 


* 运往 码头 或 者 火车 站 的 汽车 呈现 出 两 种 分 化 现象 ， 一 方面 ， 不 少 汽车 在 码头 或 者 火车 站 停放 的 时 间 较 长 ， 最 长 的 甚至 超过 4 天 ， 才 能 装 船 或 者 装 车 运 走 ; 另 一 方面 ， 不 少 船舶 或 者 火车 在 出 发 的 时 候 ， 
该 公司 购买 的 运 能 并 没有 被 充分 利用 ， 造 成 了 运输 资源 的 浪费 。 


鉴于 此 ， 该 公司 希望 结合 生产 计划 、 船 舶 排 程 和 运 能 计划 、 火 车 排 程 和 运 能 计划 ， 制 定 一 个 科学 的 运输 调度 计划 ， 来 实现 基地 仓库 零 库 存 的 目标 ， 同 时 减少 运输 资源 的 浪费 现象 。 在 这 个 调度 计划 中 ， 
需要 确定 按 每 种 运输 方式 ， 每 天 调度 给 每 个 地 区 仓库 的 配置 不 同 且 颜色 各 异 的 汽车 数量 。 


汽车 在 调度 给 某 地 区 仓库 后 ， 如 果 采 用 船 运 的 方式 ， 那 么 将 直接 运往 码头 等 待 发 往 该 地 区 仓库 的 船舶 装 船 出 发 ; 如果 采用 火车 运输 方式 ， 那 么 将 直接 运往 火车 站 等 待 发 往 该 地 区 仓库 的 火车 装 车 出 发 。 


船舶 和 火车 的 运 能 比较 大 ， 通 党 当天 生产 下 线 的 产量 可 能 不 一 定 能 够 将 船舶 或 者 火车 的 运 能 充分 利用 。 因 此 ， 公 司 同意 船舶 和 火车 存在 集 单 的 过 程 ， 即 调度 运往 码头 或 者 火车 站 的 汽车 不 需要 立即 装 船 
或 者 装 车 出 发 ， 可 以 在 码头 或 者 火车 站 待 运 ， 在 规定 的 天 数 内 出 发 即 可 。 因 此 ， 调 度 计划 和 实际 运输 之 间 存 在 一 定 的 时 间 差 。 例 如 ， 在 第 T 天 调度 的 通过 船舶 运往 某 地 区 仓库 的 汽车 ， 在 第 T 天 从 生产 线 运 到 
码头 后 ， 可 能 在 第 T+ 1 天 才 真 正 从 码头 出 发 运往 地 区 仓库 。 


此 外 ， 由 于 船 运 和 火车 的 运 能 有 限 ， 该 公司 还 安排 了 公路 运输 方式 ， 在 前 两 种 运输 方式 运 能 不 够 的 情况 下 ， 可 以 通过 公路 发 往 地 区 仓库 。 公 路 运输 没有 固定 的 排 程 和 运 能 约束 ， 每 天 都 可 以 友 运 。 从 成 
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由 于 生产 计划 是 固定 的 ， 船 舶 的 运 能 、 排 程 和 火车 的 运 能 、 排 程 可 以 提前 9 天 知道 ， 该 公司 希望 制定 周 度 调 度 计划 ， 即 每 周一 早晨 制定 本 周 中 每 天 的 调度 计划 。 
以 2014 年 7 月 的 第 二 周 为 例 ， 该 公司 计划 生产 2 种 配置 的 汽车 ， 每 种 配置 的 汽车 又 分 不 同 颜色 ， 每 天 的 生产 计划 如 表 24.3 所 示 。 


表 24.3 ”生产 计划 示例 


到 有 


TENNAL RED 周二 80 
TENNAL RED 周三 90 


TENNAL RED 100 
ACEGEE 周一 400 
EXCELLE 周二 430 
EXACGEELEE 周二 S00 
| 


基于 生产 计划 和 需求 ， 市 场 部 门 提前 一 周 计算 出 了 下 一 周 中 每 个 地 区 仓库 各 种 配置 及 颜色 的 汽车 的 发 运 量 和 紧急 程度 ， 数 据 如 表 24.4 所 示 。 紧急 程 度 用 1~ 10 的 数字 表示 ， 数 字 越 大 表示 该 地 区 仓库 对 这 
种 配置 颜色 的 汽车 需求 的 紧急 程度 越 高 。 在 安排 调度 的 时 候 ， 紧 急 程 度 高 的 地 区 仓库 应 优先 安排 调度 。 





表 24.4 地 区 仓库 发 运 量 和 紧急 程度 示例 


WHI]l TENNA BLACK Ti ] 





另外 ， 从 生产 基地 到 9 个 地 区 仓库 的 运输 方式 不 完全 一 样 ， 有 的 线路 上 只 有 船 运 和 公路 运输 ， 有 的 线路 只 有 火车 和 公路 运输 ， 有 的 线路 是 船 运 、 火 车 和 公路 运输 3 种 方式 并 存 。 在 每 条 线路 上 ， 优 先 使 用 
抬 运 和 火车 运输 ， 公 路 其 次 。 


各 条 线路 上 ， 每 周 船 运 的 容量 和 出 发 日 期 都 是 确定 的 ， 如 表 24.5 所 示 。 
表 24.5 ”船舶 运 能 和 排 程 ( 非 合并 线路 ) 


区 全 库 | 司 - | 


| 
WHS8 230 | | |. ) 


对 于 船 运 来 说， 除了 上 面 的 非 合并 运输 线路 之 外 ， 地 区 仓库 WH2 和 WH3， 地 区 仓库 WH4 和 WH5 还 有 另外 一 部 分 共用 的 船舶 运 能 ， 例 如 发 运往 WH2 和 WH3 的 汽车 可 以 装载 在 同一 舟 船 舶 上 ， 船 舶 在 途 
经 WH2 时 ， 镍 载 一 部 分 车 辆 ， 然 后 继续 行驶 到 WH3。 这 部 分 线路 称 为 合并 线路 ， 合 并 线路 的 船舶 运 能 和 排 程 如 表 24.6 所 示 。 


表 24.6 ”船舶 运 能 和 排 程 (合并 线路 ) 


地 区 仓库 
WH2/WH3 
WH4/WHS 





火车 运 能 和 排 程 如 表 24.7 所 示 ， 火 车 运输 不 存在 合并 线路 的 情况 。 


表 24.7 火车 运 能 和 排 程 


DE 


在 根据 调度 计划 调度 后 ， 如 果 指 定 的 运输 方式 是 船 运 或 者 火车 运输 ， 车 辆 可 以 停放 在 码头 或 者 火车 站 的 临时 仓库 中 待 运 ， 为 了 避免 出 现 前 面 提 到 的 部 分 车 辆 在 码头 或 者 火车 站 滞留 4 到 5 天 的 情况 ， 公 司 
要 求 在 制定 新 的 调度 计划 时 ， 规 定 每 辆 汽车 在 码头 或 者 火车 站 最 多 只 能 停留 两 天 ， 也 就 是 说 ， 在 第 T 天 调度 到 码头 或 者 火车 站 的 车 辆 ， 必 须 在 第 T 天 、 第 T+ 1 天 或 者 第 T+ 2 天 从 码头 或 者 火车 站 出 发 运往 各 地 
区 仓库 。 


总 结 下 来 ， 新 的 调度 计划 必须 满足 以 下 目标 ( 按 优先 级 从 高 到 低 排 ) : 

“ 实现 生产 基地 仓库 零 库 存 ， 即 每 天 生产 下 线 的 汽车 ， 必 须 被 调度 往 码 头 、 火 车 站 或 者 通过 公路 运输 直接 发 往 各 地 区 仓库 ， 不 能 在 生产 基地 运 留 。 
. 调度 到 码头 或 者 火车 站 的 汽车 在 码头 或 者 火车 站 最 多 只 能 停留 两 天 。 

“ 在 安排 运输 方式 时 ， 从 成 本 考虑 ， 优 先 船 运 和 火车 〈 不 分 顺序 ) ， 其 次 考虑 公路 运输 。 


紧急 程度 高 的 地 区 优先 安排 船 运 和 火车 运输 〈 因 为 这 两 种 运输 方式 比较 稳定 ) 。 


24.2.2 ”数学 模型 


1. 索 引 集 和 索引 集中 的 项 


该 优化 问题 中 需要 用 到 的 索引 集 包 括 以 下 这 些 。 


的 汽车 在 码头 或 者 火车 站 可 以 停留 0 到 2 天 再 出 发 ， 故 实际 运输 的 时 间 窗 口 需 要 后 延 两 天 ， 为 周一 到 下 周二 。 因 此 ， 


.PACKAGE_COLOR: 集合 中 的 项 为 汽车 的 配置 和 颜色 组 合 ， 


* WAREHOUSE.: 


` DOW: 集合 中 的 项 为 Mon、Tue、Wed、Thu、Fri、Sat、Sun, d€DOW， 即 d 的 取 值 为 Mon 或 者 Tue 等 。 


" DOW_EXT: 集合 中 的 项 为 Mon、Tue、Wed、Thu、EFri、Sat、Sun、NextMon、NextIue，dEDOW_EXT， 即 d 的 取 值 为 Mon 或 者 Tue 等 。 


(p，c) EPACKAGE_COLOR，p 的 取 值 为 汽车 的 配置 ，c 的 取 值 为 汽车 的 颜色 。 


地 区 仓库 的 集合 ，w《 WAREHOUSE，w 的 取 值 为 地 区 仓库 的 名 称 ， 如 WHI1 或 者 WH2 等 。 


WH_PACKAGE_COLOR: 发 往 地 区 仓库 w 的 汽车 配置 和 颜色 的 组 合 的 集合 


(w，p，c) 《WH _ PACKAGE_COLOR， 交 的 取 值 为 地 区 仓库 的 名 称 ，p 的 取 值 为 汽车 的 配置 ，c 的 取 值 为 汽车 的 颜色 。 


. TRAINROUTE : 集合 TRAINROUTE 中 的 项 为 含有 火车 运输 方式 的 地 区 仓库 名 称 ，wETRAINROUTE ， 交 的 取 值 为 地 区 仓库 的 名 称 ， 如 WH4、WH5 等 。 
. SHIPROUTE: 集合 SHIPROUTE 中 的 项 为 含有 船 运 方式 的 地 区 仓库 名 称 ，w € SHIPROUTE，,w 的 取 值 为 地 区 仓库 的 名 称 ， 如 WH1、WH2 等 。 


. SHAREROUTE: 集合 SHAREROUTE 中 的 项 由 合并 船 运 的 地 区 仓库 名 称 合成 ， 


@ 注 意 ”索引 集 DOW_EXT 和 DOW 的 区 别 在 于 DOW_EXT 中 比 DOW 多 了 两 个 项 NextMon、NextTue， 


2. 参 数 和 参数 数组 


在 该 优化 问题 中 需要 用 到 的 参数 情况 如 表 24.8 所 示 。 


参数 名 称 
index[d] 表示 d 是 从 本 周 : 
stock[p.c] 本 周 初 ， 配 置 为 p、 
production[p,c.d] 配置 为 p、 
allocation[w.p.c] 市 场 部 门 计算 的 本 上 后 
bklg[w.p.c] 地 区 仓库 w 对 配 
traincap[w.d] 第 4 天 发 往 地 区 全 


第 d 天 发 往 地 区 万 
线路 s 在 第 d 天 


shlp _ directcap[w.dj 
ship sharedcap[s.d] 


trainstock port[w] 


本 周 初 在 在 


pt SI | 十 到 二 表示 上 的 船 和 


3. 变 量 


在 了 解 了 参数 情况 后 ， 再 来 看 看 所 涉及 的 变量 ， 如 表 24.9 所 示 。 


到 下 周 . 
颜色 为 c 的 汽车 在 生产 基地 仓库 中 的 库存 
闫 色 为 < 的 汽车 在 第 d 天 的 产量 


置 为 让 
仓库 w 的 火车 的 运 和 月 
仓库 Ww lll 

出 发 的 船 船 的 运 
本 周 初 在 火车 站 等 待 发 往 地 区 

但 是 会 本 火车 运 能 ) 

头等 待 发 往 地 区 仓库 w 的 汽车 数量 ( 


s€SHAREROUTE，s 的 取 值 为 WH2WH3 或 者 WH4WH5。 


这 是 因为 生产 计划 和 调度 计划 的 时 间 窗 口 是 一 周 (从 周一 到 周 日 ) 
调度 计划 以 DOW 为 索引 集 ， 而 实际 运输 以 DOW_EXT 为 索引 集 。 


表 24.8 运输 排 程 问题 中 的 参数 


朱 述 


-中 的 第 几 天 ， 例如，index[sunday]=7 


发 往 地 区 仓库 w 的 、 卫生 为 了 颜色 为 c 的 汽车 的 发 运 量 


颜色 为 c 的 汽车 的 需求 的 紧急 程度 


a 


人 此 
有 HE 
云 能 ( 人 
BE 全 A 路 的 运 


VW 的 汽车 Te 分 汽车 不 属于 本 周 调度 计划 中 ， 


数量 


于 本 周 调度 计划 中 ， 但 


(这 部 分 ? 所 在 不 属 


提 运 能 ) 


表 24.9 ”运输 排 程 问题 中 的 变量 


变量 名 称 摘 述 
Alloc train[w.p,c,d] 第 d 天 ， 调 度 给 地 区 仓库 预备 通过 火车 运输 的 、 配 置 为 p、 颜 色 为 c 的 汽车 的 数量 
Alloc ship[w.p,c.d] 第 4 天 ， 调 度 给 地 区 本 W, 预备 通过 有 和 运输 的 、 配 置 为 p、 冲 色 为 c 的 汽车 的 数量 
Alloc highway[w.p.c,d] 第 d 天， 调度 给 地 区 仓库 预备 通过 公路 运输 的 、 配 置 为 p、 颜 色 为 c 的 汽车 的 数量 


Alloc[w.p,c.,d | 


Train cart[w.p.c,d] 第 d 天 ， 


Train[Ww.p.c.d| 


第 d 无 ， i i W -的 配置 为 p、 
实际 出 发 往 地 区 仓库 w 的 火车 的 三 数 ， 
汪 d4 天 ， 通过 火车 运往 地 区 仓库 w 的 配置 为 p、 


闫 色 为 c 的 汽车 的 数量 
每 攻 丰 皮 可 以 交 载 10 辆 汽车 
颜色 为 c 的 汽车 的 数量 ，Train[w.p,c,d] 


=10*# Train cart[w.p.c.d| 


Ship direct[w.p,c,d] 第 4 天 ， 通 过 非 合 并 线路 运往 地 区 仓库 w 的 、 配 置 为 p、 颜 色 为 c 的 汽车 的 数量 
Ship shared[w.p,c,d] 第 d 天， 通过 合并 线 吕 路 运往 地 区 仓 > 库 w 的 、 配 置 为 p、 颜 色 为 <c 的 汽车 的 数量 
第 4 天 ， 通 过 船舶 运往 地 区 仓库 w 的 、 配 置 为 p、 颜 色 为 c 的 汽车 的 数量 (包含 合 
Ship[w.p.c.d| Gwe va 
江 线 8 ry 5 
Highway[w.p.c,d] 第 4 天 ， 通 过 公路 运输 运往 仓库 w 的、 配置 为 p、 赢 色 为 c 的 汽车 的 数量 
Delivery[w.p.,c,d] 第 d 天 ， 通过 舱 舶 和 天 车 运输 发 往 地 区 仓库 w 的 、 配 置 为 p、 颜 色 为 c 的 汽车 的 数量 


第 d 天 ， 
第 d 天 ， 
第 d 天 ， 


Slack train[w.d| 
Slack ship direct[w.d| 
Slack ship shared[s.d|] 


出 发 往 地 区 仓库 w 的 火车 的 剩余 运 能 
出 发 往 地 区 仓库 w 的 非 合 并 线路 的 船舶 的 剩余 运 能 
出 发 往 地 区 仓库 w 的 合并 线 时 


各 的 船舶 的 剩余 运 能 


， 然 而 根据 调度 计划 来 看 ， 调 度 


在 本 问题 中 ， 由 于 调度 计划 和 实际 运输 时 间 之 间 存 在 一 定 的 时 间 差 ,调度 到 码头 或 者 火车 站 的 汽车 一 般 不 可 能 当天 就 从 码头 或 者 火车 站 出 发 运往 各 地 (公路 运输 不 存在 滞后 ， 当 天 调度 的 汽车 当天 就 可 
以 出 发 运往 各 地 ) ， 因 此 ， 在 模型 中 ， 设 计 了 两 套 变量 ， 其 中 以 Alloc 开头 的 是 代表 调度 计划 的 变量 ， 不 以 Alloc 开头 的 变量 如 Train、Ship、Ship_direct、Ship_shared、Highway、Delivery 代 表 的 是 和 
实际 运输 关联 的 变量 。 
4. 目 标 消 数 

该 优化 问题 的 目标 不 同 于 一 般 的 优化 问题 ， 例 如 ， 成 本 最 小 化 ， 利 润 最 大 化 。 在 24.2.1 节 的 最 后 ， 总 结 了 该 问题 有 4 个 目标 ， 通 过 分 析 得 知 ， 其 中 前 两 个 目标 是 硬性 目标 (基地 仓库 的 零 库存 目标 和 在 码 
头 或 者 火车 站 停留 不 能 超过 两 天 ) ， 调 度 计划 必须 完全 服从 和 满足 ， 因 此 将 这 两 个 目标 转化 成 了 约束 条 件 。 此 外 ， 根 据 第 三 个 目标 (优先 船 运 和 火车 运输 ) ， 可 构造 以 下 目标 函数 : 


Min Penalty = Py - (10-mdex[d| )*Slack tramlw.dj+ 


WwW E TRAINROUTE.d E DOW EX 


(10-Iindex|d|]) 


WESHPROUIE.d EDOW_EX 


*Slack ship direct[w.d|+ > (10-1ndex[d| )*Slack ship shared|[s,d| 


s E SHAREROUTE.d E DOW EX 


在 目标 函数 中 将 变量 slack_train[w，d]、slack_ship_direct[w，d] 和 slack_ship_shared[s，d] 按 天 、 按 地 区 仓库 进行 了 相 加 ， 并 且 最 小 化 该 目标 函数 。 这 里 的 (10-Index[d]) 是 每 天 剩余 运 能 的 权 
重 ， 表 示人 在 每 周 中 ， 前 面 几 天 的 权重 相对 较 大 ， 也 就 是 浪费 前 儿 天 的 运 能 所 得 到 的 惩罚 会 更 加 大 。 在 这 个 新 的 目标 水 数 下 ， 最 优 解 一 定 要 在 满足 约束 条 件 的 情况 下 ， 充 分 使 用 船舶 或 者 火车 的 运 能 。 


另 一 个 要 考虑 的 目标 是 ， 根 据 各 地 区 仓库 需求 的 紧急 程度 ， 相 同 条 件 下 (例如 ， 地 区 仓库 WH1 的 需求 量 为 10， 地 区 仓库 WH2 的 需求 量 也 为 10， 并 且 船 期 也 相同 ， 船 舶 的 运 能 也 相同 ) ， 紧 急 程度 高 的 
地 区 优先 安排 调度 ， 可 以 构造 目标 函数 : 


Max Priority = (10-1ndex[d| )*bklg[w.,p,c|* (Tramlw,p,c.,d| 


(w.p.c) E WH PACKAGE COLOR.d E DOW EX 


+Ship[w,p,c,d| )-Penalty 


在 上 述 目标 函数 中 ，bklg[w，pP，<c] 和 (10-index[d]) 的 积 作 为 每 天 的 运输 量 (Train[w，p，c，dj+Ship[lw，p，c，d]) 的 权重 ， 在 这 个 目标 函数 下 ， 紧 急 程 度 越 高 的 地 区 仓库 将 越 早 安排 运输 。 目 标 
孙 数 Priority 的 最 后 一 项 是 上 一 个 目标 函数 Penalty， 这 是 因为 在 考虑 第 四 个 目标 的 时 候 ， 我 们 希望 同时 兼顾 第 三 个 目标 。 和 24.1 节 中 的 案例 相 比 较 ， 这 是 另 一 种 处 理 多 个 目标 阔 数 的 方法 。 


5. 约 束 条 件 
该 优化 问题 有 如 下 约束 条 件 。 


` 对 于 任意 的 (w，p，c) 《WH _ PACKAGE_COLOR， 通 过 船舶 和 火车 运输 的 总 量 和 计划 的 总 发 运 量具 有 如 下 关系 〈 因 为 公路 运输 的 数量 不 包含 在 船舶 和 火车 运输 的 总 量 中 ) : 


allocation[w,p,c| 三 p> Delivery[w.,p,c,d | 
d EDOW EXT 


. 对 任意 的 (w，pb，c) € WH_PACKAGE_COLOR， 计 划 的 总 发 运 量 和 调度 的 总 量 必须 相等 。 
alljocation|w.p,c|= , 之 国 Alloc[w,p.,c.,d| 


. 对 于 任意 的 wETRAINROUTE ，dEDOW_EXT， 有 : 


traln cap[w.,d| =Slack tram[w.,d|+ 2 Tramnl[w,p,c,d| 


(p.e) E PACKAGE COLOR 


. 对 于 任意 的 wE€SHIPROUTE, dE€ DOW_EXT， 有 : 


ship direct cap[w.d| =Slack ship direct[w,d|+ 2 Ship direct[w,p,c,d| 


(p.c) E PACKAGE COLOR 


. 对 于 任意 的 E SHAREROUTE, d€ DOW_EXT， 有 : 


ship shared capls,dj=Slack ship shared|s,d|+ Ship shared[w,p,c,d| 


(p.c) E PACKAGE COLORw 在 S 上 


“ 对 于 任意 的 (p，c) €PACKAGE_COLOR, d€《 DOW_EXT， 通 过 船舶 和 火车 发 运 的 累计 总 量 小 于 等 于 生产 总 量 与 期 初 库存 累计 之 和 。 


Delivery[w,p,c,dd| = 和 producbhon|p,c,d|+stock|p,c| 


w E WAREHOUSE dd E DOWindex[dd] 三 index[d] dd E DOW.index[dd] < index[d] 


` 对 于 任意 的 (p，c) 《PACKAGE_COLOR，dEDOW_EXIT， 累 计 的 调度 总 量 小 于 等 于 生产 总 量 与 期 初 库存 累计 之 和 。 


, Alloc[w.p,c,dd] = production[p,c,dl+stock[p,c] 


WE WAREHOUSE dd E DOWindex[dd] 三 index[d dd E DOW:index[dd] index[d] 


“ 为 了 实现 基地 仓库 的 零 库存 目标 ， 即 每 辆 生产 线 下 来 的 汽车 都 不 进 基 地 仓库 ， 所 以 每 天 的 生产 量 必须 每 天 都 安排 调度 ， 故 ， 对 于 任意 的 (p，c) €PACKAGE_COLOR, dE€ DOW， 有 : 


Alljoclw.p,c,d| 三 production[p,c,d| 


WE WAREHOUSE 


. 对 于 火车 运输 或 者 船 运 ， 对 于 任意 的 (p，c) EPACKAGE_COLOR，dEDOW， 当 index[dj<7 时 ， 累 计 的 调度 总 量 大 于 等 于 实际 运输 的 总 量 。 


Alloc tram[w,p,c,dd| 三 Tram[w.p,c,dd| 


WwE WAREHOUSE dd € DOW.ndex[dd] 三 index[d] Ww E WAREHOUSE dd E DOW. ndex[dd] 三 index[d] 


Alloc ship[w.p,c,dd|] 三 2 2 Ship[w.p,c.dd| 


w E WAREHOUSE dd € DOWindex[dd] < index[d] w E WAREHOUSE dd E DOWindex[dd] < index[d] 


. 对 于 火车 运输 或 者 船 运 ， 对 于 任意 的 (p, c) €PACKAGE_COLOR, d€ DOW， 当 index[d]=7 时 ， 累 计 的 调度 总 量 大 于 等 于 实际 运输 的 总 量 。 


了 这 Alloc tram[w.p;c,dd|= 3 和 a 


Ww E WAREHOUSE dd € DOW:index[dd] 三 index[d] WE WAREHOUSE dd € DOW,n 


Tram[w.p;c,dd| 


= index[d] 


Alloc ship[w.p;c,dd|= > 2 Ship[w.p,c,dd| 


w E WAREHOUSE dd E DOWindex[dd] < index[d] w E WAREHOUSE dd E DOW.index[dd] < index[d] 


` 在 第 I 天 调度 到 码头 和 火车 站 的 汽车 ， 必 须 在 第 T 天 到 T+2 天 之 间 从 码头 或 者 火车 站 出 发 运往 各 地 区 仓库 。 以 火车 站 为 例 ， 假 设 周一 调度 往 火 车 站 的 汽车 数量 为 Alloc_train[lw，p，c，1]， 周 一 出 发 的 数 
量 为 Train[lw，p，c，1]， 则 周一 剩余 在 火车 站 的 临时 库存 为 Alloc_train[w，p，c，1]-Train[w，p，c，1]， 按 照 要 求 ， 这 部 分 库存 必须 在 周二 和 周三 全 部 运 出 。 记 周二 和 周三 出 发 的 数量 分 别 为 Train[lw,，p，c，2] 


和 Train[w，p，c，3]， 因 此 ， 有 Alloc_train[w, p, c,1]-Train[lw, p, c¢, 1]<Train[lw, p, c, 2]+Train[w, p, c, 3], RPAloc train[w, p, c¢c, 1]<Train[w, p, c, 1]+Train[lw, p, c¢, 2]+Train[w, p, c, 3]。 


二 调度 往 火 车 站 的 汽车 数量 为 Alloc_ttain[w，P，c，2]， 则 周二 剩余 在 火车 站 的 库存 为 Alloc_ttain[w，pPb，c，1]-Train[w，pP，c，1+Alloc train[w，pb，c，2]-Train[w，Pp，c，2]， 按 照 要 求 这 部 分 库存 必须 最 迟 在 


周 四 全 部 运 出 ， 因 此 ， 有 Alloc_ttain[w，P，c，1]-Train[w，pPp，c，1+Alloc _ train[w，P，c，2]-Ttrain[w，Pp，c，2] 入 Ttain[w，b，c，3]+Train[w，Pp，c，4， 即 
Alloc _ttain[w，Pp，c，1]+Alloc _ train[w，pPp，c，2] 入 Train[w，p，c，1+Train[w，pb，c，2]+Train[w，P，c，3]+Train[w，pb，c， 外 。 从 上 面 的 推导 中 ， 可 以 看 出 ， 该 约束 条 件 可 以 转化 为 ， 对 于 任意 的 
(w, p, c) EWH_PACKAGE_COLOR，dEDOW， 有 : 


Alloc traml[w.p,c,dd| = > Train[w.,p,c,dd| 


index[dd] 三 index[d] index[dd] 三 index[d]+2 


Alloc ship[w,p.,c,dd| = Ship[w,p,c,dd| 


index[dd] index[d] index[dd] 三 index[d]+2 


“ 对 任意 的 (w, p, c) €WH_PACKAGE_COLOR,， dE€DOW_EXT， 有 : 

Train[w, p, c¢, dj=10*Train_catt[lw, p, ¢, d] 

“ 对 任意 的 (w, p, c) €WH_PACKAGE_COLOR,，d€DOW， 有 : 

Alloc[w, p, ¢, dj=Alloc_ship[lw, p, c¢, dj+Alloc_train[lw, p, c¢, dj]+Alloc_ highway[w, p, c,d 
对 任意 的 (w, p, c) €WH_PACKAGE_COLOR, dE€DOW_EXT， 有 : 

Shiplw, p, ¢, dj=Ship_direct[tw, p, c¢c, dj+Ship_shared[w, p, c¢, d] 

对 任意 的 (w, p, c) €WH_PACKAGE_COLOR,， dE€DOW_EXT， 有 : 

Deliverylw, p, ¢, dl=Shiplw, p, c¢, dj+Train[lw, p, c¢, d] 

“ 对 任意 的 (w, p, c) €WH_PACKAGE_COLOR,， 

dE€ DOW, Highway[lw, p, c¢c, dj=Alloc highway[w, p, ¢, d] 


dE DOW_EXT\DOW, Highwaylw, p, ¢, dj=0 


24.2.3 输入 数据 


该 优化 模型 中 需要 使 用 的 输入 数据 集 如 表 24.10 所 示 。 
表 24.10 输入 数据 集 信 息 
数据 集 名 称 描述 描述 
work.allocation 各 地 区 仓库 每 周 发 运 量 数据 || work.ship_shared route 合并 线路 船 运 排 程 
work.production 生产 基地 生产 计划 火车 排 程 
work.stock 生产 基地 仓库 的 周 初 库存 码头 和 火车 站 周 初 库存 
work.ship _ direct route 非 合 并 线路 船 运 排 程 Ia 


下 列 代码 创建 了 以 上 数据 集 : 



















































































data work.allocation; 

length warehouse $3 package $8; 

input warehouse $ package $ color $ allocation bklg; 

datalines; 
WHI EXCELLE BLACK 300 7 
WH2 EXCELLE BLACK 100 6 
WH3 EXCELLE BLACK 80 e: 
WH4 EXCELLE BLACK 400 1 
WHS5 EXCELLE BLACK 500 2 
WH6 XCELLE BLACK 250 浊 
WHY EXCELLE BLACK 460 4 
WH8 EXCELLE BLACK 320 9 
WH9 EXCELLE BLACK 540 6 
WHI EXCELLE GREY 600 7 
WH2 EXCELLE GREY 300 4 








































































































































































































































































































































































































































































































WH3 EXCELLE GREY 120 9 
14 EXCELLE GREY 300 8 
15 EXCELLE GREY 600 3 
16 EXCELLE GREY 200 5 
1 EXCELLE GREY 100 2 
18 EXCELLE GREY 400 1 
19 EXCELLE GREY 130 7 

WH1 TENNAL RED 40 6 
12 TENNAL RED 30 LO 

WH3 TENNAL RED 40 9 

WH4 TENNAL RED 70 8 

WHD TENNAL RED 45 6 

WH6 TENNAL RED Sy 8 
于 TENNAL RED 25 4 

WH8 TENNAL RED 5 6 
11 TENNAL BLACK 112 1 

WH2 TENNAL BLACK 300 2 
13 TENNAL BLACK 230 * 
14 TENNAL BLACK 20 4 

WHD TENNAL BLACK 340 8 
16 TENNAL BLACK 200 6 

WH7 TENNAL BLACK 75 10 
18 TENNAL BLACK 125 3 

WH9 TENNAL BLACK 190 6 
了 TENNAL GRE 120 4 

WH2 TENNAL GRE 320 1 

WH3 TENNAL GRE 230 6 
14 TENNAL GRE 100 3 

WHD TENNAL GRE 450 6 
16 TENNAL GRE 230 4 

WH7 TENNAL GRE 222 4 
18 TENNAL GRE 72 
19 TENNAL GRE 156 0 

EN 

data work.production; 

input package $ color $ weekday $ quantity dow; 
datalines; 

TENNAL RED Mon 0 让 

TENNAL RED Tue 80 2 

TENNAL RED ed 90 3 

TENNAL RED Thu 100 4 

TENNAL BLACK Mon 300 1 

TENNAL BLACK Tue 340 2 

TENNAL BLACK Wed 340 3 

TENNAL BLACK Thu 350 4 

TENNAL BLACK Fri 3505 

EXCELLE BLACK Mon 400 1 

EXCELLE BLACK Tue 450 2 

EXCELLFE BLACK ed 50013 

EXCELLE BLACK Thu 500 4 

EXCELLE BLACK Fri 500..5 

EXCELLE BLACK Sat 300 6 

EXCELLE BLACK Sun 300 7 

EXCELLE GREY Mon 600 1 

EXCELLE GREY Tue 600 2 

EXCELLE GREY Wed 650 3 

EXCELLE GREY Thu 600 4 

EXCELLE GREY Fri 600 5 

EXCELLE GREY Sat 700 6 

EXCELLE GREY Sun 600 7 

TENNAL GRE Mon 500 1 

TENNAL GRE Tue 450 2 

TENNAL GRE Wed 450 3 

TENNAL GRE Thu 500 4 








input package $ color $ stock; 
datalines; 
EXCELLE GREY 200 






































data work.ship direct route; 
length warehouse $3 shared route $6; 



















































































infile datalines dsd missover; 
input warehouse $ shared route $ Mon Tue Wed Thu Fri Sat Sun NextMon NextTue; 
datalines; 

WH]1, DIRECT, , 350, , 200, 300, , ,200 

WH2, WH2WH3, , 300, , 150, ,150 

WH3, WH2WH3, , 350, ,, 350,, 350 

WH4, WHAWHS 

WHS5, WHAWHS, 300, , 300,,, 300,,, 300,,,300 

WH7, DIRECT, 330, 230, , 230, ,230,, 330 

WH8, DIRECT, 230, ,, 230,, ,230 

run; 





data work.ship shared route; 
length shared route $6; 
infile datalines dsd missover; 
input shared route $ Mon Tue Wed Thu Fri Sat Sun NextMon NextTue; 
datalines; 
12WH37%25077L50y 757250 
14WHS 2 L930, 77250 L190 
































HR 


Un7 


在 船 运 排 程 中 ， 为 了 使 得 合并 运输 线路 与 非 合并 运输 线路 相互 关联 起 来 ， 在 设计 数据 模型 时 ， 数 据 集 work.ship_direct_route 中 增加 了 变量 shared_ route。 如 果 在 去 往 某 地 区 仓库 的 线路 中 不 存在 合并 
运输 线路 ， 则 shared _ route 的 取 值 为 DIRECT， 如 地 区 仓库 WH1 这 一 行 中 ，shared_ route 的 取 值 为 DIRECT; 如 果 存 在 合并 运输 线路 ， 则 shared_route 的 取 值 为 合并 运输 线路 的 名 称 ， 如 地 区 仓库 WH5 这 一 
行 中 ，shared _ route 的 取 值 为 WH4WH5; 如 果 仪 存在 合并 运输 线路 ， 则 在 数据 集中 work.ship_direct_route 添 加 一 行 虚 拟 的 非 合并 运输 线路 ， 以 便 仅 对 变量 warehouse 和 shared_ route 赋值 ， 例 如 地 区 仓 
库 WH4 这 一 行 ， 运 能 数据 全 部 缺失 ， 表 示 去 往 地 区 仓库 WH4 的 线路 中 ， 并 不 存在 非 合 并 运输 线路 ,但 是 shared_route 的 取 值 为 NH4WH5， 表 示 去 往 WH4 的 线路 中 ， 存 在 一 条 合并 运输 线路 。 


data work.train schedule; 
length warehouse $3; 
infile datalines dsd missover; 
input warehouse $ Mon Tue Wed Thu Fri Sat Sun NextMon NextTue; 
datalines; 
Td E50 ze oO yr Lo0 
IS S07 290,77 L350 
67 2903 77290%37290 
18, ,150,,,130,,,150 





























马 马 马 马 














run; 
data work.stock at port; 
length mode $5 warehouse $3; 
input mode warehouse stock at port; 
































datalines; 

ship WH1 10 
ship WH5 20 
shiip WH7 14 
ship WH8 15 
train WH4 20 
train WH6 18 
run; 


在 work.stock_at_port 中 保存 的 是 周 初 在 码头 和 火车 站 待 运 的 汽车 数量 。 这 部 分 汽车 数量 属于 上 周 调度 计划 中 的 部 分 ， 由 于 允许 有 0~ 2 天 的 待 运 时 间 ， 故 它们 仍然 在 码头 和 火车 站 待 运 。 需 要 注意 的 


是 ， 这 部 分 数量 会 占用 本 周 船舶 和 火车 的 运 能 。 


24.2.4 数据 验证 


输入 数据 是 优化 模型 的 基础 ， 为 了 避免 在 模型 运行 过 程 中 出 现 不 可 预测 的 错误 ， 所 有 的 输入 数据 都 必须 先 经 过 验证 ， 然 后 再 输入 模型 中 。 验 证 的 内 容 包括 数据 的 合理 性 、 数 据 集 之 间 的 相互 关联 性 、 数 
据 的 完整 性 等 内 容 。 


前 面 的 实例 中 使 用 了 多 个 输入 数据 集 ， 并 且 数 据 集 之 间 是 相互 关联 的 ， 因 此 本 例 中 运用 了 DATA 步 、HAsH 对 象 和 SQL 过 程 对 多 个 数据 集 进 行 了 验证 。 





在 实际 项 目 中 ， 数 据 集 是 通过 ETL 程 序 从 生产 环境 或 其 他 数据 库 中 抽取 并 加 工 生成 的 ， 这 样 一 来 ， 数 据 的 合理 性 、 关 联 性 和 完整 性 往往 不 能 得 到 保证 。 因 此 ， 在 实际 项 目 中 数据 验证 这 一 步骤 更 加 重要 。 


首先 ， 为 了 避免 改变 原 数据 集 ， 将 所 有 的 数据 都 复制 到 | 





条 时 库 的 新 数据 集中 。 代 码 如 下 : 


*** COPY data into work ***; 
data work.data allocation;set work.allocation;run; 
data work.data production; set work.production;run; 
data work.data stock;set work.stock;run; 
data work.data train schedule; set work.Train schedule; run; 
data work.data ship direct route; set work.Ship direct route; run; 
data work.data ship shared route; set work.Ship shared route; run; 
data work.data stock at port; set work.stock at port; mode=upcase (mode); run; 
proc transpose data=work.data train schedule (drop=warehouse) out= 
work.day of week ext (keep= name ); run; 
data work.day of week ext; set work.day of week ext; label name ='day of week 
extention'; index= n ; run; 8 aa 



















































































接 下 来 在 宏 DataValidation 中 对 数据 集 进行 验证 ， 将 错误 的 数据 从 原 数据 集中 删除 ， 并 输出 到 对 应 的 数据 集 work.error_XXX 中 (同时 输出 错误 原因 ) 。 代 码 如 下 : 


***Data vallidation***w*> 
smacro DataValidation; 
***xvalidate allocation table and only keep set 
<package color> with positive allocations and 
nonnegative bklg ***,; 
data work.exp allocation (keep=package color error) 
work.data allocation (drop=error); 
set work.data allocation; 
if allocation <= 0 or bklg <0 then do; 
error = 'nonpositive allocation or negative backlog'; 
output work.exp allocation; 
engd; 
else output work.data allocation; 





























run; 


以 上 程序 将 数据 集 work.data_allocation 中 变量 allocation 或 者 bklg 的 取 值 小 于 0 的 观测 从 work.data_allocation 中 删除 ， 并 将 其 保存 到 work.exp_allocation 中 。 


data work.temp allocation (keep=package color) set work.data allocation; run; 
proc sort nodup data=work.temp allocation 
Out=work.val package color; by package color; run; 
proc sql; select count (*) into :exp allocation from work.exp allocation; quit; 
Sput exp=&exp allocation; 
xxx validate production/stock table and 
create data production stock table ***; 
data work.exp production 
work.data production (drop=error); 
Jength package $8 color $8; 
if n =1 then do; 
declare hash hl(dataset:'work.val package color'); 
h.definekey('package', 'color'); 
h.definedone () ; 
call missing (package, color); 















































engd; 
set work.data production; 
if h.find()^=0 then do; 
error = 'no such (package,color) in allocation table'; 



































output work.exp production; 

eng; 

else if quantity<0 then do; 
error = 'negative production quantity'; 
output work.exp production; 

end; 

else output work.data production; 





run; 
proc sql; select count (*) into :exp production from work.exp production; quit; 











以 上 程序 将 数据 集 work.data_production 中 与 work.data_allocation 中 的 package 和 color 不 匹配 的 观测 或 者 quantity 取 值 不 合理 的 观测 从 数据 集 work.data_production 中 删除 ， 并 将 删除 的 观测 保存 
到 数据 集 work.exp_production 中 。 


data work.exp stock 
work.data stock (drop=error); 
Jength package $8 color $8; 

if n=1 then do; 

geclare hash h(dataset:'work.val package color'); 

h.definekey('package', 'color'); 
h.definedone () ; 
call missing (package, color); 














engd; 
set work.data stock; 
if h.find()^=0 then do; 
error = 'no such (package,color) in allocation table'; 





























output work.exp stock; 

end; 

else if stock<0 then do; 
error = 'negative stock value'; 
output work.exp stock; 

engd; 

else output work.data stock; 











run; 
proc sql; select count (*) into :exp Stock from work.exp stock; quit; 








以 上 程序 将 数据 集 work.data_stock 中 与 work.data_allocation 中 的 package 和 color 不 匹配 的 观测 或 者 stock 取 值 不 合理 的 观测 从 数据 集 work.data_stock 中 删除 ， 并 将 删除 的 观测 保存 到 数据 集 


work.exp_stock 中 。 


data work.temp production; 
set work.val package color; 





run; 
$do i=1 %to 7;}; 


proc sql; 
create table work.temp production 1 as 
selecta.*, 

if &i=1] sthen 

else %if &i=2 

else %if &i=3 

else %if &i=4 


.quantity as Mon; 

then b.gquantity as Tue; 
then b.gquantity as Wed; 
then b.gquantity as Thu; 






































oP co oO oo 
oo oo oo 订 














else %if &i=5 %then b.quantity as Fri; 

lse gif &i=6 Sthen b.gquantity as Sat; 

else b.quantity as Sun; 

rom work.temp production as a left join work.data production 
(where= (dow=&i)) as b 

on a.package = b.package 

and a.color = b.color; 





oP ob 























Hh oP oo ob 
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quit; 
data work.temp production; 
set work.temp production 1; 














Pur 

$end; 

proc sql; 
create table work.data production stock as 
selecta.*, stock 
from work.temp production as a left join work.data stock as b 
on a.package = b.package 
and a.color = b.color; 

quit; 


以 上 程序 根据 work.data_production 中 的 生产 数据 和 work.data_stock 中 的 初始 库存 数据 ， 生 成 了 新 的 数据 集 work.data_production_stock。 新 数据 集中 观测 关于 变量 package 和 color 是 唯一 的 ， 每 
天 的 产量 和 初始 库存 将 保存 在 不 同 的 列 中 。 


接 下 来 的 代码 会 对 船舶 、 火 车 的 运输 线路 进行 验证 ， 原 理 和 方法 同上 面 对 生产 及 库存 数据 的 验证 。 


这 里 以 work.data_allocation 中 的 wareshouse 为 基准 ， 将 在 本 次 优化 中 不 需要 的 线路 从 运 能 和 排 程 数 
据 集中 删除 ， 并 保存 到 对 应 的 以 exp_ 开 头 的 数据 集中 。 


xxx Only consider route with allocation defined ***,; 

data work.val route (keep=warehouse); set work.data allocation; run; 

proc sort nodup data=work.val route; by warehouse; run; 

data work.exp ship direct route (keep=warehouse error) 
work.data ship direct route (drop=error); 
length warehouse $3; 

if n=1 then do; 

declare hash route (dataset:'work.val route'); 

route.definekey ('warehouse'); 
route.definedata ('warehouse'); 
route.definedone ();，; 
call missing (warehouse); 






































eng; 
set work.data ship direct route; 
if route.find()^=0 then do; 
error = 'no such route in allocation table'; 
output work.exp ship direct route; 




















eng; 
else output work.data ship direct route; 








hablo 
proc sql; select count (*) into :exp ship direct route from 
work.exp ship direct route; quit; 
data work.exp train schedule (keep=warehous rror) 
work.data train schedule (drop=error); 
length warehouse $3; 
if n =1 then do; 
declare hash route (dataset:'work.val route'); 
route.definekey ('warehouse'); 
route.definedata ('warehouse'); 
route.definedone ()，; 
call missing (warehouse); 












































set data train schedule; 
if route.find()^=0 then do; 
error = 'no such route in allocation table'; 


output work.exp train schedule; 























eng; 
else output work.data train schedule; 








run; 


proc sql; select count (*) into :exp train schedule from 
work.exp train schedule; quit; 








下 面 的 代码 会 对 码头 和 火车 站 的 期 初 库存 数据 进行 验证 。 


*** Only consider stock with known route ***; 

data work.exp stock at port (keep=warehouse error) 
work.data stock at port (drop=error); 
length warehouse $3; 

if n =1 then do; 
declare hash ship(dataset:'work.Data ship direct route'); 
ship.definekey ('warehouse'); 站 
ship.aqaefineqata('warehouse ' ) ， 
ship.definedone () ， 
call missing (warehouse); 
declare hash train(dataset:'work.Data train schedule'); 
train.definekey ('warehouse'); 

train.definedata ('warehouse'); 

train.definedone () ; 

call missing (warehouse); 


















































end; 
set work.data stock at port; 
if mode='TRAIN' and train.find()^=0 then do; 






































error = "no such route in train schedule'; 
output work.exp stock at port; 

engd; 

else if mode='SHIP' and ship.find()^=0 then do; 
error = 'no such route in ship route'; 
output work.exp stock at port; 

engd; 











else output work.data stock at port; 
KLIN 


proc sql; select count (*) into :exp stock at port 

















from work.exp stock at port; quit; 


在 将 上 面 所 有 的 数据 集 都 验证 完毕 之 后 ， 将 会 生成 一 个 天 于 所 删除 观测 的 汇总 信息 数据 集 ， 其 中 每 条 观测 为 每 个 数据 集中 删除 的 观测 条 数 。 通 过 汇总 数据 集 提供 的 信息 ， 用 户 可 以 通过 查看 对 应 的 以 
exp_ 开 头 的 数据 集 ， 具 体 分 析 产 生 数 据 错 误 的 原因 。 


已 


*** aggregate exceptions into exp status table ***; 
proc sql; 
create table work.exp status 
( 
table char 32 label='table name', 
remove num label="'removed records' 











); 
insert into work.exp status 
values ('data allocation', &exp allocation) 
Values ('data production', &exp production) 
Values ('data stock', &exp stock) 
values('data ship direct route',t&exp ship direct route) 
values('data train schedule', &exp train schedule) 
values('data stock at port',é&exp stock at port); 












































quit; 
proc datasets library=work NOPRINT; 
delete temp : val :7 
quit; 
smend DataValidation; 


SDataValidation; 


原 数 据 集中 所 有 被 删除 的 观测 条 数 汇 总 如 图 24.7 所 示 。 


VIEWTABLE: Work,Exp_status 


tabls name 


data_allocation 





图 24.7 ”数据 集 Work.Exp_status 内 容 
图 24.7 表 明 24.2.3 节 中 的 代码 创建 的 数据 集 是 合理 的 。 


在 宏 DataValidation 的 最 后 ， 通 过 DATASETS 过 程 删除 了 验证 过 程 中 创建 的 、 数 据 集 名 称 以 temp 或 val_ 开头 的 中 间 数 据 集 。 


24.2.5 ” PROC OPTMODEL 人 代码 和 输出 


以 下 为 调用 PROC OPTMODEL 建 立 模型 的 示例 代码 : 


proc optmodel; 
set<str> DOW EXT; 
num index{DOW EXT}; 
read data work.day of week ext into DOW EXT=[ name |] ingdex; 
set<str> DOW = {d in DOW EXT: index[d]<=7}; 
































在 PROC OPTMODEL 的 最 开始 ,创建 了 两 个 索引 集 DOW EXT 和 DOW，DOW EXT 和 和 DOW 中 的 项 分 别 为 {Mon','Tue', "Wed', 'Thu', 'Fri", 'Sat', 'Sun', 'NextMon','NextTue'} 和 和 
{Mon', 'Tue', 'Wed', 'Thu', 'Fri', 'Sat', 'Sun'), 


接 下 来 ， 从 数据 集 work.data_production_stock 中 读 取 了 生产 数据 和 库存 数据 ， 从 数据 集 work.data_allocation 中 读 取 了 分 配 数据 和 紧急 程 度数 据 。 代 码 如 下 : 





set<str,str> PACKAGE COLOR; 

num stock{PACKAGE COLOR} init 0; 

num production{PACKAGE COLOR, DOW} init 0; 

read data work.data production stock nomiss into PACKAGE COLOR=[package Color] 
stock {d in DOW}<production[package,color,d]=col (gd)>; 

set<str, str,str> WH PACKAGE COLOR; 
num allocation{WH PACKAGE COLOR}; 
num bklg{WH PACKAGE COLOR}; 
read data work.Data allocation into WH PACKAGE COLOR=[warehouse package colorl] 
allocation bklg; 






























































下 面 的 代码 从 数据 集 work.data train_schedule、work.data_ship_direct_route 和 work.data_ship_shared_route 中 读 取 了 船舶 和 火车 的 排 程 及 运 能 数据 ， 参 数 数 组 train_cap、ship_direct_cap 和 
ship_shared_cap 保 存 了 从 周一 到 下 周二 之 间 火 车 和 船舶 按 天 计算 的 运 能 。 参 数 数组 ship_shared_route 的 索引 集 为 SHIP_ROUTE， 索 引 集 SHIP_ROUTE 中 的 项 为 
{WH1'，"WH2'，"WH3'，"WH4'，"WH5'，"'WH7'，"WH8'}， 参 数 数 组 ship_shared_route 的 取 值 为 数据 集 work.data_ship_direct_route 中 变量 shared route 的 值 。 





set<str> TRAIN ROUTE; 
num train cap{TRAIN ROUTE,DOW EXT} init 0O; 
read data work.Data train Schedule nomiss into TRAIN ROUTE=[warehouse] {d in 
DOW EXT}<train caplwarehouse,d]=col (d)>; 

set<str> SHIP ROUTE; 
num ship direct cap{SHIP ROUTE, DOW EXT} init 0; 
str ship shared route{SHIP ROUTE}; 
read data work.Data ship direct route nomiss into SHIP ROUTE=[warehouse] 

ship shared route=shared route {d in DOW EXT}<ship direct caplwarehouse,d]=col (9)>; 
put SHIP ROUTE; 
print ship shared route; 
se 
n 











































































































t<str> SHIP SHAREDROUTE; 

um ship shared cap{SHIP SHAREDROUTE,DOW EXT} init 0; 

read data work.Data ship shared route nomiss into SHIP SHAREDROUTE=[shared routel] 
{d in DOW EXT}<ship shared caplshared route,d]=col (gd)>; 



























































参数 数组 ship_shared route 的 数据 如 图 24.8 所 示 。ship_shared _route[WH2]=WH2WH3 说 明 地 区 仓库 WH2 存 在 一 条 船舶 合并 运输 线路 ， 线 路 的 名 称 为 NH2WH3; 
ship_shared _route[WH1]=DIRECT 说 明 地 区 仓库 WH1 不 存在 船舶 合并 运输 线路 。 同 理 ，WH3、WH4 和 WH5 都 存在 各 自 的 合并 运输 线路 ， 其 余地 区 仓库 都 不 存在 合并 运输 线路 。 

















3 








图 24.8 ”参数 数组 ship_shared_route 


下 面 的 代码 读 入 了 周 初 码头 和 火车 站 的 初始 库存 ， 这 部 分 库存 属于 已 经 安排 调度 的 存留 在 码头 和 火车 站 的 量 ( 按 调度 计划 ， 这 部 分 量 应 该 是 根据 本 周一 和 周二 的 运输 容量 安排 给 在 此 期 间 出 发 的 船舶 或 
者 火车 ) 。 因 此 ， 这 部 分 量 势 必 会 占用 本 周 的 运 能 ， 按 照 “ 先 到 先 运 ”的 原则 ， 适 用 于 本 周 船舶 或 火车 调度 计划 的 运 能 应 重新 计算 ， 新 的 运 能 应 等 于 本 周 船舶 或 者 火车 容量 减 去 码头 或 火车 站 的 初始 库存 。 


这 里 运用 FOR 循环 语句 ， 将 表示 火车 运 能 的 参数 数组 train_cap 及 表示 船舶 运 能 的 参数 数组 ship_ direct cap 和 ship_shared _ cap 进行 了 更 新 ， 并 输出 到 work.check _ remain _ train_cap、 
work.check_remain ship_direct cap 和 work.check remain_ship_shared cap 中 。 这 里 的 CREATE DATA 语 句 是 可 选 的 ， 主 要 用 于 数据 检查 。 














num train stock at port{TRAIN ROUTE} init 0; 
num ship stock at port{SHIP ROUTE} init 0; 


read data work.Data stock at port (where= (mode='TRAIN')) nomiss into [warehouse] 
train stock at port=stock at port; 
read data work.Data stock at port (where=(mode='SHIP')) nomiss into [warehouse] 
ship stock at port=stock at port; 
print ship shared route; 
*** adjust train/ship capacities to transport stock on port ***; 
for {d in DOW EXT} do; 
for {<w> in TRAIN ROUTE: train Stock at port[w]>0} do; 
if train stock at Port [w]>train caplw,d|] then do; 
train stock at port[w]=train stock at port[w]-train capl[w,qd]; 
train capl[lw,d]=0; 
eng; 
else do; 
train capl[lw,d]=train capl[lw,d]-train stock at port[w]; 
train stock at port[w]=0; 




























































































end; 


end; 





for {<w> in SHIP ROUTE: 














ship | stock at port[w w] >0} 





























do; 
































if ship stock at port[w] > ship direct cap[w,d] then do; 
ship | stock at port [w] = Ship stock at port[w] - ship 
direct ,Caplw,qd]; 
ship direct caplw,d] = 0; 
eng; 
else do; 
ship qirect capl[lw,d] = ship direct capl[lw,d] - ship 
stock at Port [w] 
ship stock at port[w] = 0; 
eng; 
eng; 
for {<w> in SHIP ROUTE: ship shared route[w] in SHIP SHAREDROUTE and 
ship stock at port [w] >0} do; 
if ship stock at port[w] > ship shared cap[ship shared 
route[lw]j,d] then do; 
ship stock at port[w] = ship stock at port[w] - ship 
shared capl[lship shared .routelw ] ,dj] ; 
ship shared cap[ship shared route[w]l,d] = 0; 
eng; 
else do; 
ship shared caplship shared route[lw],d] = ship shared caplship shared 
route[lw]l,d] - ship stock at port[w]; 
ship stock at port[w] = 0; 
eng; 
eng; 
eng; 
create data work.check remain train cap from [warehouse]=TRAIN ROUTE 
{d in DOW EXT}<col (d)=train cap [warehouseyQ]> 
create data work.check remain ship direct cap Som wa ene se RO 


























create data work.check remai 


{d in DOW EXT}<col (gd) =ship ， direct capl[warehouse,d]> 














{d in DOW EXT}<col (gd) 


n ship share cap 





保存 火车 和 船舶 剩余 运 能 的 数据 集 内 容 如 图 24.9 所 示 。 


2 |WH4WH5 


from [shared route] 
=ship shared caplshared route,d]> 























=SHIP SHAREDROUTE 


图 24.9 


火车 和 船舶 剩余 容量 





以 发 往 地 区 仓库 WH6 的 数据 为 例 ， 从 数据 集 work.data_stock_at_port 中 可 知 ， 周 初 在 火车 站 ， 预 计 本 周 发 往 WH6 的 库存 为 18， 在 本 周 帮 往 WH6 的 火车 排 程 中 ， 周 一 的 运 能 为 290。 在 更 新 之 后 ， 周 一 


的 容量 应 为 272 (290-18) ， 


下 面 的 代码 声明 了 模型 中 的 决策 变 


set WH = setof{<w,p,c> in WH 
var Train cart{<w, pc> in WH 





impvar Train{<w,p,c> in WH PACKAGE COLOR,d in DOW_EXT} 


var Ship shared{<w,p,c> in 网 
var Ship direct{<w, pc> in W 


impvar Ship{<w,p,c> in WH PACKAGE COLOR, d in DOW | EXT} = 


Ship direct[w,p,c,dl]; 
impvar el veeyl web in W 





= Ship[lw,p,c,d] + Trainl[lw,p,c,qdl; 


如 图 24.9 中 所 示 。 


PACKAGE COLOR} w; 

















量 和 隐 式 变量 ， 汽 车 的 数量 不 能 是 


PACKAGE COLOR,d in DOW EXT} >=0 











H PACKAGE COLOR,d in DOW EXT} 
H PACKAGE COLOR,d in DOW EXT} 

















H PACKAGE COLOR,d in DOW EXT} 





var A] 
var A] 
var A] 


loc train{<w,p,c> in W 
loc . ship{<w,p,c> in WH 
loc | ' highway{<w, pc> in 

















= Alloc shipl[w, PrCv vd] + Alloc 


impvar Highway{<w, pc> in WH 











H PACKAGE COLOR,d in DOW} >=0 
PACKAGE ,COLOR, d in DOW} >=0 











WH PACKAGE ,COLOR,d in DOW} >=0 
impvar Alloc{<w, p,c> in WH PACKAGE ,COLOR, d in DOW} 

















PACKAGE COLOR,d in DOW EXT} 





= if d in DOW then Alloc highway [w, pc,d] else 0; 





var Slack train{w in TRAIN ROUTE, 
Var Slack . . Ship direct{w in SHIP ROUTE， 














d in DOW EXT} >=0; 
Q in DOW EXT} >=0; 





























var SJ] lack ship shared{s in SHIP SHAREDROUTE, 





小 数 ， 故 在 声明 的 时 候 都 加 上 了 关键 字 INTEGER。 由 于 变量 
Ship_shared、Ship_direct、Alloc ship、Alloc train、Alloc_ highway 等 表示 ， 故 根据 约束 条 件 将 其 定义 为 隐 式 变量 


in 


in 


in 


in 


d in DOW EXT} >=0; 


teger; 
= 10*Train 

>=0 七 
>=0 


cart[w,p,c,9Q]; 


teger; 
int 
Ship shared[w,p,c,dl+ 





eger; 


teger; 
ini 


teger; 





teger; 


train[w,p,c,d] + Alloc highway[w,p,c,d]; 


Train、Ship、Delivery、Alloc、Highway 可 以 用 决策 变量 


Train_cart、 





以 下 代码 按照 24.2.2 节 中 约束 条 件 的 顺序 依次 声明 了 各 约束 条 件 。 


计划 的 总 发 运 量 必须 大 于 等 于 通 


*** palance constraints 
highway can be assigned 


(note del 


甬 过 船舶 和 火车 运输 的 总 量 ， 但 同时 也 必须 和 调度 的 总 量 相等 。 相 应 的 代码 如 下 : 


ivery balance is greater or equal because 











freel y 光 尖 水 





Con qdqe] ivery | balance{<w,p,c> 
allocation[w pycl >= 
con alloc balance{<w,p,c> in 
allocation[w,p, 




















in WH PACKAGE COLOR}: 


sum{d in DOW EXT} Delivery[w,p,c,d]; 








WH PACKAGE COLOR}: 


c] = sum{d in DOW} Alloc[w,p,c,d]; 


火车 运 能 等 于 火车 的 实际 运输 量 加 上 剩余 运 能 ， 非 合并 运输 线路 的 运 能 等 于 非 合并 运输 线路 的 实际 运输 量 加 上 剩余 运 能 ， 合 并 运输 线路 的 运 能 等 于 合并 运输 线路 的 实际 运输 量 加 上 剩余 运 能 。 故 有 如 下 
约束 条 件 ， 这 里 使 用 了 (: ) 对 索引 集 进 行 了 筛选 。 


*** delivery capacities over ship direct/ship share/train ***,; 
con train delivery cap{w in TRAIN ROUTE, d in DOW EXT: train caplw,d]>0}: 
train cap[w,d] = Slack train[w,d] + sum{<(w),p,c> in WH PACKAGE COLOR} 
Train[w,p,c,d]; 
con ship direct delivery SR in SHIP ROUTE, d in DOW EXT: ship direct capl[lw,d]>0}: 
ship direct capl[lw,d] = Slack . ship ， direct[w,d] + sum{<(w),p,c> 
in WH PACKAGE COLOR} Ship direct[w,p,c,d]; 
con ship share route cap{s in SHIP SHAREDROUTE, d in DOW EXT: 
ship shared capls,d]>0}: ship shared cap[s,d] = = Slack . . Ship shared[s,d] + sum{<w,p,c> in 
WH PACKAGE COLOR: w in SHIP ROUTE and ship shared routel[w wl]=s} 
Ship | shared[w,p,c,d]; 

































































通过 船舶 和 火车 发 运 的 累计 总 量 小 于 等 于 生产 总 量 与 期 初 库存 的 累计 之 和 ， 累 计 的 调运 总 量 也 必须 小 于 等 于 生产 总 量 与 期 初 库存 累计 之 和 。 


xxx delivery and allocation cannot exceed production + StLOCK ***; 
Con delivery ub{<p,c> in PACKAGE COLOR,d in DOW EXT}: 
sum{<w, (Pp), (c)> in WH PACKAGE COLOR, dd in DOW: index[dd]<=index[d]} 
Delivery[w,p,c,ddl<= stock[p,c] + sum{dd in DOW: index[dd]<=index[d]} 
production[p,c, dd]; 
con allocation ub{<p,c> in PACKAGE COLOR,d in DOW}: 
sum{<w, (Pp), (c)> in WH PACKAGE COLOR, dd in DOW: index[dd]<=index[d]} 
Alloc[w,p,c,dd]<= stock[p,c] + sum{dd in DOW: index[dd]<=index[d]} 
production[p,c,dqdl; 


























为 了 使 生产 基地 仓库 实现 零 库 存 目 标 ， 所 以 每 天 的 调度 量 要 大 于 等 于 生产 下 线 的 数量 (考虑 生产 基地 有 期 初 库存 的 情况 ) 。 代 码 如 下 : 





xxx all production have to be allocated daily ***,; 
Con alloc lb{<p,c> in PACKAGE COLOR,d in DOW}: 
sum{<w, (p), (c)> in WH PACKAGE COLOR} Alloc[w,p,c,d] >= production[p,c,d]; 

















在 船舶 和 火车 运输 中 ， 当 index[d]<7 时 ， 昧 计 的 调度 总 量 必须 要 大 于 等 于 实际 运输 的 累计 总 量 ; 但 是 ,一 周 中 的 调度 总 量 必须 等 于 从 本 周一 到 下 周二 的 实际 运输 总 量 (此 时 ,不 考虑 下 周一 和 下 周二 的 
调度 量 ) 。 代 码 如 下 : 


大 大 大 






































allocation>= delivery over ship/train (note allocation highway = delivery 
higqhway) **w*y 

con alloc Se ie lb{<w,p,c> in WH PACKAGE COLOR,d in DOW: index[d]<7}: 
sum{dd in DOW: index[dd]l<=index[d]} Alloc train[w,p,c,dd]l>= sum{dd in DOW: 
index[dd]<=index[d]} Train[wprcradad]， 

con alloc accum ship lb{<w,p,c> in WH PACKAGE COLOR,d in DOW: index[d]<7}: 
sum{dd in DOW: index[dd]<=index[d]} Alloc shipl[w,p,c,d9]>= sum{dd in DOW: 











index[dd]<=index[d]j} Shipl[lw,p,c,gd9l]; 
*** in total allocation = deliyv ry Over shi/train. ***; 
con alloc accum train eq{<w,p,c> in WH PACKAGE COLOR}: 
sum{d in DOW} Alloc train[w,p,c,d] = sum{d in DOW EXT} Trainl[w,p,c,d]; 
con alloc accum ship eq{<w, pc> in WH PACKAGE ,COLOR}: 
sum{d in DOW} Alloc shipl[lw,p,c,d] = = sum{d in DOW EXT} Shipl[lw,p,c,d]; 





















































按 要 求 ， 在 第 T 天 调度 到 码头 和 火车 站 的 汽车 必须 在 第 T 天 到 T+2 天 之 间 从 码头 或 者 火车 站 出 发 运往 各 地 区 仓库 ， 由 24.2.3 节 中 的 推导 可 知 ， 该 约束 条 件 可 以 转化 为 以 下 表达 式 代码 : 





*** allocation in day horizon {lhnttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15092/0EBPS/Text/..T} need to be delivered in day horizor 
T+2}, i.e. no stock stays at port for more than 2 days ***,; 
con train stock{<w,p,c> in WH PACKAGE COLOR,d in DOW}: 
sum{dd in DOW: index[dd]l<=index[d]} Alloc train[w,p,c,ddl 
<= sum{dd in DOW EXT: index[dd] <=index[d]+2} Trainl[w,p,c,ddl; 
con ship stock{<w,p,c> in WH PACKAGE COLOR,d in DOW}: 
sum{dd in DOW: index[dd]<=index[d]} Alloc shipl[w,p,c,99]<= sum{dd in 
DOW EXT: index[dd]<=index[d]+2} Ship[w,p,c,ddl; 





工 





















































下 面 代码 声明 了 目标 函数 Penalty 和 Priority。 


xxx Penalize under capacitiy Ne 

min Penalty = sum{w in TRAIN ROUTE, d in DOW EXT} (10-index[d])*Slack 
train[w,d]l+ sum{w in SHIP ROUTE, d in DOW EXT} (10-index[d])*Slack ship direct[w,dqd] 
+ sum{s in SHIP SHAREDROUTE, d in DOW EXT} (10-index[d])* 

Slack ship sharedls,dqdl]; 

max Priority = sum{<w,p,c> in WH PACKAGE COLOR, d in DOW EXT} bklg[w,p,c]* 
(10-index[d])*(Ship[w,p,c,d] + Train[w,p,c,d]) - Penalty; 






























































过 分 析 可 以 得 知 最 优 解 中 一 部 分 决策 变量 的 值 。 例 如 ， 当 某 地 区 仓库 不 存在 火车 线路 或 者 火车 线路 的 运 能 为 0 时 ， 那 么 最 优 解 中 这 条 线路 上 的 实际 运输 量 一 定 为 0。 故 在 求解 前 ， 可 以 使 用 FIX 语 句 将 这 
部 分 决策 变量 的 值 固定 ， 然 后 调用 MILP 求 解 器 对 目标 进行 求解 。 代 码 如 下 : 





for {<w,p,c> in WH PACKAGE COLOR,d in DOW EXT} do; 
if w not in SHIP ROUTE then fix Ship | shared[w,p,c,d]=0; 


for {s in SHIP SHAREDROUTE: w in SHIP ROUTE and ship shared route [w]= 


s and ship shared ， capls,d]l=0} fix Ship shared[w,p,c,d]=0; 
w not in SHIP ROUTE or ship direct caplw,d]=0 then fix Ship directl[w,p,c,d]l=0; 
w in SHIP ROUTE and ship shared route[w]='DIRECT' then fix Ship shared[w,p,c,d]=0; 


w not in TRAIN ROUTE or train capl[w, d]=0 then fix Train cart[w,p,c,d]l=0; 
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Fi 

















end; 
solve obj Priority with milp / maxtime=100; 








以 下 代码 中 声明 了 多 个 参数 数组 来 保存 最 优 解 ， 并 将 最 优 解 输出 到 数据 集中 。 


/*Output solution*/ 



























































num sol train{<w,p,c> in WH PACKAGE COLOR,d in DOW EXT} = round(Train[w,p,c,d] .sol); 
num sol Ship{<w,p,c> in WH PACKAGE COLOR,d in DOW EXT} = round (Ship[w,p,c,d] .so oy 
num sol highway{<w,p,c> in WH PACKAGE COLOR,d in DOW EXT} = round (Highway 
[wrPv cv Qq] .so1); 
num sol alloc train{<w,p,c> in WH PACKAGE COLOR,d in DOW} = round (Alloc train 
[w, PC,d] .sol); 
num sol alloc ship{<w,p,c> in WH PACKAGE COLOR,d in DOW} = round (Alloc ship 
[w,P,c,d] .sol); 
num sol alloc highway{<w,p,c> in WH PACKAGE COLOR,d in DOW} = round (Alloc highway 











[w,P,c,d] .sol); 

create data work.sol ship from [warehouse Package color]=WH PACKAGE COLOR {d in 

DOW | EXT}<col (d)=sol _Ship [warehouse Package color,d]> 

create data work.sol train from [warehouse package color]=WH PACKAGE COLOR 

{Q_ in DOW EXT}<col (gd) =SolL train[lwarehouse,package,color,dl> 

create data work.sol highway from [warehouse Package color]=WH PACKAGE COLOR 

{d in DOW EXT}<col (9)=sol highwaylwarehouse,package,color,d]> 

create data work.sol alloc ship from [warehouse package color]= 

WH PACKAGE COLOR {d in DOW}<col (d)=sol alloc ship [warehouse Packager coLlorrdq]> 

create data work.sol alloc train from [warehouse | package color]= 
{ 
a 
{ 































































































d 
WH PACKAGE COLOR {d :in DOW}<col (dq)=sol alloc train[lwarehouse,package,color,d]> 
create data work.sol alloc highway from [warehouse package color]= 

H PACKAGE COLOR {dd 


in DOW}<col (d)=sol alloc highway[warehouse,package,color,d]> 





















































马 








包含 最 优 解 的 数据 集 可 以 分 为 两 类 ， 一 类 是 名 称 以 sol 开头 的 数据 集 ， 其 中 的 数据 表示 每 天 实际 运往 某 地 区 仓库 的 、 某 种 配置 、 某 种 颜色 的 汽车 数量 ， 船 运 、 火 车 和 公路 运输 分 别 保存 在 不 同 的 数据 集 
中 ; 一 类 是 名 称 以 sol_alloc 开头 的 数据 集 ， 其 中 的 数据 表示 每 天 调度 运往 某 地 区 仓库 的 、 某 种 配置 、 某 种 颜色 的 汽车 数量 。 


以 数据 集 work.sol_alloc_ship 为 例 ， 数 据 内 容 如 图 24.10 所 示 。 方 框 中 的 数据 可 以 解读 为 ， 周 一 应 调度 210 辆 配置 为 EXCELLE、 颜 色 为 BLACK 的 汽车 到 运往 地 区 仓库 WH8 的 码头 ， 等 待 后 续 运 输 ; 在 本 周 
的 其 余 时 间 不 需要 调度 该 种 配置 和 颜色 的 汽车 到 运往 WH8 的 码头 。 
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图 24.10 ”数据 集 Work.Sol_alloc_ship 部 分 内 容 


接 下 来 ， 将 最 优 解 中 按 地 区 仓库 、 按 天 、 按 配置 、 按 颜色 调度 的 数量 和 实际 运输 量 进 行 汇 总 ， 并 输出 到 的 数据 集 。 代 码 如 下 : 











































































































































































































*** solution analysis ***,} 

num ship daily{w in WH, d in DOW EXT} = sum{<(w),p,c> in WH PACKAGE COLOR} 
sol shipl[lw,p,c,qdl; 

num train daily{w in WH, d in DOW EXT} = sum{<(w),p,c> in WH PACKAGE COLOR)} 
sol train[w,p,c,d]; 

num highway daily{w in WH, d in DOW EXT} = sum{<(w),p,c> in WH PACKAGE COLOR} 
sol highway[w,p,c,qd]; 

num total delivery daily{w in WH, d in DOW EXT} = ship daily[w,d] + train daily 
[w,d] + highway dailyl[lw,d]; 

num alloc ship daily{w in WH, d in DOW} = sum{<(w),p,c> in WH PACKAGE COLOR} 
sol alloc shipl[w,p,c,9d]; 

num alloc train daily{w in WH, d in DOW} = sum{<(w),p,c> in WH PACKAGE COLOR} 
sol alloc train[w,p,c,dl]; 

num alloc highway daily{w in WH, d in DOW} = sum{<(w),p,c> in WH PACKAGE COLOR} 
sol alloc highway[w,p,c,d]; 

num total alloc daily{w in WH, d in DOW} = alloc ship daily[w,d] + 
alloc train daily[w,d] + alloc highway dailyl[w,d]; 

create data work.sol ship daily from [warehouse]=WH {d in DOW EXTJ<col (d)= 
ship daily[warehouse, dl>; 

create data work.sol train daily from [warehouse]=WH {d in DOW EXT}<col (d)= 
train daily[warehouse,d]>; 

create data work.sol highway daily from [warehousel=WH {d in DOW EXT}<col (d)= 
highway dailylwarehouse,d]>; 

create data work.sol total delivery daily from [warehouse]l=WH {d in DOW EXT}< 
col (d)=total delivery daily[warehouse,d]>; 

create data work.sol alloc ship daily from [warehouse]=WwH {d in DOW}<col (d)= 
alloc ship daily[warehouse,d]>; 

create data work.sol alloc train daily from [warehouse]=WwH {d in DOW}<col (d)= 
alloc train dailyl[lwarehouse,d]>; 

create data work.sol alloc highway daily from [warehousel=WH {d in DOW}<col (d)= 
alloc highway dailylwarehouse,d]>; 

create data work.sol total alloc daily from [warehouse]=WwH {d in DOW}<col (d)= 



































total alloc daily[lwarehouse,d]>; 





以 数据 集 work.sol_alloc train_daily 和 work.sol train_daily 为 例 ， 数 据 内 容 如 图 24.11 所 示 。 
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图 24.11 部 分 最 优 解 


以 图 24.11 中 的 WH4 为 例 ， 在 work.sol alloc train_daily 中 周一 的 调度 量 为 130， 在 work.sol train_daily 中 周一 的 实际 运输 量 为 130; 周二 、 周 三 和 周 四 的 调度 量 分 别 为 60、65 和 25， 周 二 和 周三 的 实际 
运输 量 为 0， 周 四 的 实际 运输 量 为 150， 可 见 正好 将 周二 、 周 三 和 周 四 的 调度 量 集中 在 周 四 发 出 ; 周 五 、 周 六 和 周 日 的 调度 量 分 别 为 0、150 和 0， 周 五 到 周 日 的 实际 运输 量 都 为 0， 周 六 调度 的 150 辆 在 下 周一 
从 火车 站 出 发 。 

在 代码 的 最 后 ， 分 析 了 最 优 解 中 船舶 和 火车 的 利用 率 ， 并 输出 到 数据 集 work.check _ship 和 work.check train 中 。 其 中 ，UNION 集 合 运算 符 将 船舶 的 合并 运输 线路 和 非 合并 运输 线路 都 赋予 集合 


ROUTE9。 





set<str> ROUTES init {}; 

num capcity{ROUTES, DOW EXT} init 0; 

num shipment{ROUTES, DOW EXT} init 0; 

for {r in SHIP SHAREDROUTE, d in DOW EXT} do; 
ROUTES = ROUTES union {r}; 
capcityl[lr,d]=ship shared capl[r,d]; 

for {w in SHIP ROUTE: ship shared route[w]=r} do; 
shipment[r,dl=shipment[r,d]+ sum{< (w),p,c> 

in WH PACKAGE COLOR} Ship shared[w,p,c,d] .sol; 







































































end; 
for {w in SHIP ROUTE, d in DOW EXT} do; 
ROUTES = ROUTES union {w}; 
capcityl[w,d]=ship direct capl[lw,dl]; 
shipment [w,d]l= sum{<(w),p,c> in WH PACKAGE COLOR} Ship direct 
[wy PrGy g .sol; 

































































create data work.check ship from [route]=ROUTES {d in DOWJ<col (d)= (shipment 
[route,d] ||1'/'||capcityl[lroute,d])>; 
create data work.check train from [warehouse]=TRAIN ROUTE {d in DOW}<col (gd)= 
(train daily[warehouse,dl||'/'||train cap[warenhouseydq] )>; 
quit 





数据 集 work.check_ship 和 work.check_train 的 内 容 如 图 24.12 所 示 。 “/” 前 面 的 数字 表示 实际 运输 量 ，“/” 后 面 的 数字 表示 运 能 。 
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图 24.12 ”最 优 解 中 船舶 和 火车 运 能 利用 率 分 析 


24.2.6 ”功能 与 技巧 汇 忌 
在 这 个 案例 的 建 模 和 求解 过 程 中 ， 除 了 和 第 一 个 案例 一 样 展 示 了 READ DATA、1IMPVAR 和 CREATE DATA 等 语句 的 使 用 方法 和 技巧 以 外 ， 还 展示 了 PROC OPTMODEL 的 一 些 其 他 功能 : 
. 使 用 .SOL 后 缀 获取 最 优 解 中 决策 变量 的 取 值 。 
` 使 用 COL (表达 式 ) 计算 数据 集中 变量 的 名 称 。 
. 使 用 FOR 语句 处 理 变量 和 参数 数组 。 
` 使 用 FIX 语 和 句 固定 决策 变量 的 取 值 。 
. 使 用 UNION 集 合 运 算 符 生 成 集合 。 


“ 使 用 SETOF 集 合 运 算 符 生成 集合 。 


24.3 ”本 章 小 结 


本 章 结合 了 两 个 非常 贴近 实际 项 目的 案例 ， 介 绍 了 运用 SAS/OR 解 决 实际 优 问 题 的 基本 分 析 过 程 。 第 一 个 实例 中 侧重 介绍 了 在 进行 多 目标 优化 时 ， 如 何 将 前 次 的 优化 结果 作为 二 次 优化 的 初始 解 ， 从 而 
是 高 二 次 优化 的 求解 效率 ; 第 二 个 实例 着 重 讨 论 了 如 何 将 实际 的 问题 转化 成 数学 问题 ， 并 说 明了 进行 数据 验证 的 重要 性 ， 同 时 展示 了 PROC OPTMODEL 中 集合 和 变量 的 操作 技巧 。 
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第 25 章 ”SAS 智能 平台 及 行业 解决 方案 
前 面 以 24 章 的 篇 幅 介 绍 了 SAS 在 数据 处 理 、 统 计 分 析 以 及 预测 和 优化 等 方面 的 技术 知识 。 对 这 些 技 术 知 识 的 深入 掌握 和 灵活 应 用 ， 足 以 使 大 家 成 为 一 个 优秀 的 SAS 技 术 专 家 。 在 拥有 这 些 专业 的 SAS 知 识 
之 后 ， 如 何在 实际 的 商业 环境 中 ， 帮 助 大 型 商业 客户 解决 他 们 的 业务 问题 ， 建 立 强大 、 安 全 并 且 可 靠 的 应 用 系统 ， 则 是 本 书后 续 章 节 的 目标 。 


为 了 更 好 并 且 更 快捷 地 帮助 用 户 发 挥 SAS 在 数据 管理 、 数 据 分 析 和 预测 优化 等 领域 的 核心 功能 ，SAs 提 供 了 SAs 智 能 平台 (SAs Platform for Business Analytics) 。SAS 智 能 分 析 平 台 是 一 个 完整 的 从 
端 到 端的 基础 架构 平台 。 基 于 这 个 平台 ， 可 以 实现 (但 不 局 限于 ) 下 述 任务 : 


. 各 种 数据 源 的 获取 
数据 的 处 理 和 管理 

. 数据 分 析 

. 信息 的 创建 、 管 理 和 分 发 
. 元 数据 管理 


在 SAs 智 能 平台 之 上 ， 基 于 在 多 个 行业 领域 长 期 帮助 客户 解决 特定 业务 问题 的 经 验 ， 针 对 不 同行 业 中 的 特定 业务 问题 提供 了 相应 的 解决 方案 ， 例 如 ， 在 客户 智能 (Customer Intelligence) 、 风 险 管理 
(Risk Management) 和 财务 管理 (Financial Management) 等 领域 都 有 一 系列 的 解决 方案 。 这 些 解决 方案 集成 了 为 解决 某 个 领域 内 具有 代表 性 的 业务 问题 所 需要 的 数据 模型 、 对 数据 的 转换 和 处 理 ， 以 
及 建立 在 完成 转换 和 处 理 后 的 数据 之 上 的 分 析 和 优化 模型 等 。 


本 章 主 要 介绍 SAs 智 能 平台 ， 以 及 面向 各 行业 的 解决 方案 和 SAs 的 高 性 能 分 析 产 品 等 。 但 是 ， 本 章 并 不 会 讲解 这 些 产 品 或 解决 方案 的 详细 功能 ， 有 兴趣 的 读者 可 参考 具体 的 产品 或 解决 方案 的 文档 进行 学 
习 。 


25.1 SAS 智 能 平台 
SAS 智 能 平台 将 SAS 的 数据 处 理 、 分 析 、 预 报 和 优化 等 众多 功能 和 相关 产品 无 颖 集成 起 来 ， 减 少 了 管理 和 部 署 成 本 ， 并 有 提供 了 多 种 技术 来 满足 不 同 用 户 的 需求 。 这 样 用 户 就 可 以 基于 一 个 统一 的 平台 ， 
对 企业 的 各 种 数据 源 (包括 各 类 ERP 系 统 的 数据 ) 进行 整合 了 ， 并 且 可 创建 数据 仓库 ， 执 行 数据 分 析 和 数据 挖掘， 还 可 通过 Web 浏 览 器 查询 信息 并 产生 报表 。 


SAS 智 能 平台 使 用 n 层 结构 的 设计 理念 ， 使 其 具有 跨 计算 机 资源 分 布 各 层 的 功能 。 该 体系 架构 支持 快速 扩展 以 符合 工作 任务 的 需要 。 对 于 大 型 的 企业 和 组 织 机 构 ， 各 层 可 以 在 不 同 操作 系统 的 多 台 计 算 机 
上 安装 。 对 于 原型 设计 、 演 示 或 小 型 企业 ， 则 可 以 将 各 层 安装 在 同一 台 计 算 机 上 。 


该 体系 结构 包含 以 下 4 层 (如 图 25.1 所 示 ) 。 
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图 25.1 SAS 智 能 平台 体系 加 构 
(1) 数据 源 
数据 源 用 于 存储 企业 数据 。 所 有 现 有 的 数据 资产 ， 无 论 是 存储 在 第 三 方 的 数据 库 管 理 系 统 或 SAS 表 中 的 ， 还 是 存放 在 ERP 系 统 表 中 的 ， 都 可 以 被 SAS 智 能 平台 整合 到 SAS 系 统 中 使 用 。 
(2) SAS 服 务 器 
SAs 服 务 器 执行 对 数据 的 处 理 和 管理 。 有 多 种 SAs 服 务 器 可 供 选择 ， 以 便 处 理 不 同 负载 类 型 的 任务 。 软 件 将 来 自 客 户 端的 请 求 合理 地 分 布 到 各 个 服务 器 ， 以 便 能 够 满足 多 个 客户 端的 请 求 。 
(3) 中 间 层 
中 间 层 使 用 户 能 够 通过 Web 浏 览 器 访问 数据 和 信息 ， 并 调用 SAS 功 能 。 该 层 是 基于 Web 的 结构 ， 用 于 创建 报表 和 发 布 信息 ， 并 且 可 将 分 析 和 处 理 请 求 传递 给 SAS 服 务 器 进行 处 理 。 
(4) 客户 端 


客户 端 为 用 户 提供 对 智能 信息 的 访问 和 管理 。 对 于 大 多 数 信息 消费 者 而 言 ， 可 以 仅 通过 Web 浏 览 器 来 完成 报表 和 分 析 任 务 。 对 于 高 级 分 析 设 计 任务 ， 必 要 时 可 以 使 用 安装 在 用 户 桌 面 环境 中 的 SAs 客 户 
端 软 件 。 同 时 ，SAS 还 提供 了 对 移动 设备 的 支持 。 


这 4 层 是 按照 执行 计算 任务 和 要 求 资源 的 软件 类 别 进行 划分 的 ， 并 不 表示 各 层 必须 为 单独 的 计算 机 或 计算 机 组 。 
25.1.1 数据 层 


SAS 智 能 平台 的 数据 层 可 使 用 如 下 数据 源 : 
. SAS 数 据 集 ， 也 称 为 SAS 表 ， 是 由 SAS 创 建 和 处 理 的 SAS 文 件 ， 类 似 于 关系 型 数据 库 中 的 表 。 
“SAS Scalable Performance Data (SPD) 数据 引擎 表 ， 支 持 对 分 区 的 数据 集 进 行 多 线程 访问 。 
. SAS SPD 服 务 器 ， 供 用 户 对 SAS SPD 服 务 器 上 的 数据 进行 密集 型 的 处 理 和 访问 。 
SAS OLAP 立 方 体 ， 是 提前 汇总 过 的 多 维 数据 ， 可 以 让 用 户 从 多 个 角度 对 数据 进行 分 析 ， 本 章 后 面 的 小 节 会 进一步 介绍 。 


* SAS Web Infrastructure Platform Data Servetr， 中 间 层 存储 数据 的 默认 位 置 。 中 间 层 数据 包含 报警 (Alett) 、 注 释 (Comment) 和 工作 流 (Workflow) ， 以 及 SAS Content Servet 中 的 数据 。 这 些 数 据 也 可 以 
存储 在 第 三 方 数据 库 管理 系统 中 。 


. 第 三 方 数据 存储 和 ERP 系 统 中 的 数据 。SAS/ACCESS 接 口 提供 了 对 各 种 数据 存储 的 直接 访问 。 
25.1.2 ” SAS 服务 器 


SAS 服 务 器 包括 SAS 元 数据 服务 器 ， 以 及 执行 SAS 分 析 和 报表 处 理 的 计算 服务 器 。SAS 计 算 服 务 器 包括 SAS OLAP 服 务 器 (OLAP Server) 、SAS 工 作 区 服务 器 (Workspace Server) 、SAS 共 享 池 工 作 
区 服务 器 (Pooled Workspace Server) 、SAS 存 储 过 程 服务 器 (Stored Process Server) 。 与 SAS 工 作 区 服务 器 、SAS 共 享 池 工 作 区 服务 器 和 SAS 存 储 过 程 服务 器 密切 相关 的 一 个 组 件 是 SAS Object 
Spawner， 用 于 处 理 对 所 在 计算 机 上 的 这 3 类 服务 器 的 请 求 ， 后 面 会 有 进一步 的 介绍 。 


这 些 服务 器 通常 可 以 通过 桌面 客户 端 或 在 中 间 层 运行 的 Web 应 用 进行 访问 。 有 时 也 可 将 SAS 元 数据 服务 器 与 计算 服务 器 分 开 安 装 部 署 ， 它 们 分 别称 为 元 数据 层 (Metadata Tier) 和 计算 层 (Computer 
Tier) 。 


@ 注 意 在 SAS 智 能 平台 中 ，“ 服 务 器 ”并 非 指 通常 的 硬件 服务 器 ， 而 是 指 一 个 或 多 个 用 来 满足 来 自 客户 端 对 数据 或 服务 请 求 的 软件 进程 。 


1.SAS 元 数据 服务 器 


SAS 元 数据 服务 器 提供 对 元 数据 中 心 存储 库 的 访问 ， 并 对 元 数据 进行 统一 集中 管理 ， 这 样 可 以 保证 所 有 用 户 访问 的 信息 一 致 。 元 数据 存储 库 由 该 部 署 中 的 所 有 SAS 应 用 共享 ， 该 存储 库存 储 和 管理 下 列 信 


洱 


SAS 智 能 应 用 需要 访问 的 企业 数据 源 和 数据 结构 。 
"SAS 应 用 创建 和 使 用 的 内 容 ， 包 括 信息 映射 (Information Map) 、OLAP 立 方 体 、 报 表 定 义 、 存 储 过 程 定 义 ， 以 及 Portal 内 容 定 义 等 。 
"SAS 服务器 以 及 为 访问 第 三 方 数据 所 创建 的 服务 器 。 
“ 允许 使 用 该 SAS 系 统 的 用 户 和 用 户 组 信息 。 用 户 可 通过 元 数据 服务 器 或 主机 环境 Web 域 、 第 三 方 数据 库 等 外 部 系统 进行 认证 。 
" 用 户 和 组 对 资源 进行 访问 的 授权 。SAS 使 用 基于 元 数据 的 授权 层 补 充 保 护 SAS 系 统 。 
2.SAS OLAP 服 务 器 


SAS OLAP 服 务 器 是 多 维 数据 服务 器 ， 常 用 于 向 商业 智能 应 用 提供 预先 汇总 的 数据 立方 体 (Cube) 。 该 服务 器 被 设计 用 来 在 查询 时 快速 提供 汇总 视图 ， 而 不 必 考 虑 产生 这 些 汇总 的 数据 量 ， 从 而 减少 了 
传统 后 端 存 储 系 统 的 负载 。 提 交 到 SAs OLAP 服 务 器 的 数据 查询 将 使 用 多 维 表达 式 (Multimensional Expression，MDX) 语言 。 


3.SAS 工 作 区 服务 器 


SAS 工 作 区 服务 器 使 得 SAs 客 户 端 应 用 程序 能 够 将 SAs 代 码 提交 到 SAs 会 话 中 执行 。 例 如 ， 当 使 用 SAs Data Integration Studio 提 交 ETL 作 业 进 行 数据 处 理 时 ， 其 所 生成 和 管理 的 SAS 代 码 将 提交 到 工作 
区 服务 器 执行 。 类 似 地 ，SAS Enterprise Guide 和 SAs Enterprise Miner 等 客户 端 应 用 也 可 以 将 分 析 任 务 提交 到 工作 区 服务 器 上 运行 。 如 果 有 需要 ， 还 可 运行 多 个 工作 区 服务 器 实例 来 支持 并 发 的 请 求 。 


4.SAS 共 享 池 工作 区 服务 器 


SAs 共 享 池 工作 区 服务 器 是 使 用 服务 器 端 轮 询 (Server-side Polling) 的 工作 区 服务 器 。 这 种 配置 为 客户 端 维持 可 以 重用 的 一 定数 量 的 工作 区 服务 器 进程 ， 这 样 每 次 客户 端 在 连接 该 服务 器 时 ， 就 不 必 重 
新 创建 新 的 工作 区 服务 器 进程 了 ， 从 而 避免 了 相关 的 资源 消耗 。SAS Information Map Studio、SAS Web Report Studio， 以 及 SAS Information Delivery Portal 等 客户 端 都 使 用 共享 池 工作 区 服务 器 查 
询 后 端 数据 库 中 的 数据 。 


5.SAs 存 储 过 程 服 务 器 


在 一 个 多 客户 端 环境 中 ，SAs 人 存储 过 程 服务 器 将 执行 并 交付 SAs 存 储 过 程 运行 的 结果 。3SAs 存 储 过 程 是 指 集中 注册 并 存储 在 一 个 指定 位 置 的 、 能 够 被 用 户 或 客户 端 应 用 程序 执行 的 SAs 程 序 。 需 要 时 可 运 
行 多 个 存储 过 程 服务 器 实例 ， 以 支持 负载 。 存 储 过 程 常用 于 运行 频繁 县 运行 时 间 较 短 的 任务 ， 它 还 可 交互 式 地 提供 运行 时 使 用 的 参数 。 


6.SAS Object Spawner 


SAS Object Spawner 是 运行 在 工作 区 服务 器 、 共 享 池 工作 区 服务 器 ， 以 及 存储 过 程 服 务 器 所 在 主机 上 的 进程 。 它 监听 对 这 些 服务 器 的 请 求 ， 认 证 提出 请 求 的 客户 端 ， 并 且 在 需要 时 启动 服务 器 进程 响 
应 请 求 。 在 一 个 共享 池 工作 区 服务 器 的 配置 中 ，SAS Object Spawner 用 于 维持 客户 端 可 重用 的 工作 区 服务 器 进程 集合 。 当 为 SAS 计 算 服 务 器 配置 了 服务 器 负载 均衡 (Load Balancing) 时 ，SAs Object 
Spawner 还 会 在 同类 型 的 计算 服务 器 进程 间 平 衡 负载 。 


25.1.3 ”中 间 层 


SAS 智 能 平台 的 中 间 层 为 SAAS 的 Web 应 用 提供 了 可 执行 环境 。 这 些 产品 在 Web 应 用 服务 器 中 运行 ， 并 将 请 求 的 信息 发 送 到 用 户 的 Web 浏 览 器 上 ， 或 从 用 户 的 Web 浏 览 器 上 接收 信息 。 这 些 中 间 层 的 Web 
应 用 依赖 于 SAS 服 务 器 层 的 服务 器 来 达成 数据 处 理 和 分 析 等 任务 。 


中 间 层 包含 了 如 下 SAS 软 件 组 件 : 
" SAS Web 应 用 服务 器 和 SAS Web 服 务 器 。 
. SAS Web 应 用 ， 包 括 SAS Web Report Studio、SAS Information Delivery Portal、SAS BI Portlets、SAS BI Dashboard、SAS Environment Managet 等 其 他 基于 Web 应 用 的 SAS 产 品 和 解决 方案 。 


:. SAS Web Infrastructure Platform， 包 括 SAS Content Setvet 和 其 他 SAS 智 能 平台 体系 架构 中 的 应 用 和 服务 。 
25.1.4 客户 端 


SAs 智 能 平台 的 客户 端 为 使 用 和 管理 智能 分 析 平 台 提供 了 界面 和 工具 。 在 SAs 智 能 平台 实现 的 所 有 功能 ， 包 括 对 平台 本 身 进 行 管理 和 维护 ， 对 数据 进行 处 理 、 分 析 和 管理 ， 报 表 的 制作 、 碍 询 和 浏览 等 ， 
都 可 以 通过 各 种 客户 端 实现 。SAs 的 客户 端 分 为 Web 应 用 客户 端 和 桌面 客户 端 。 


运行 在 Windows 桌 面 的 SAS 客 户 端 主要 包括 SAS Add-ln for Microsoft Office、SAS Data Integration Studio、SAS Enterprise Guide、SAS Enterprise Miner、SAS Forecast Studio、SAS 
Information Map Studio、SAS Management Console、SAS Model Manager、SAS OLAP Cube Studio、SAS Workflow Studio 等 。 


常用 的 Web 应 用 客户 端 有 SAS Information Delivery Portal、SAS BI Dashboard、SAS Environment Manager、SAS Web Report Studio 等 。 


此 外 ， 还 可 以 使 用 移动 设备 (iPad 和 Android) 查看 SAS 报 表 。 


25.2 SAS 商业 智能 


SAS 在 商业 智能 (Business Intelligence) 领域 向 用 户 提 供 及 时 、 相 关 和 可 操作 的 信息 ， 帮 助 用 户 更 快 更 明智 地 做 出 决策 。 根 据 不 同 用 户 的 业务 需求 ，SAS 提 供 的 商业 智能 产品 主要 如 下 : 
* SAS Visual Analytics 


* SAS Office Analytics 


“ SAS Enterprise BI Server 


下 面 将 介绍 SAS Office Analytics 以 及 SAS Enterprise BI Server 的 主要 客户 端 软 件 。SAS Visual Analytics 使 用 了 高 性 能 分 析 技 术 ， 会 在 后 面 的 章节 专门 介绍 。 


25.2.1 SAS Office Analytics 


SAS Office Analytics 为 服务 器 /客户 端 结构 ， 通 过 应 用 Microsoft Office (利用 Microsoft Office 集 成 的 菜单 和 工具 栏 ) 来 对 后 端的 SAS 服 务 器 进行 访问 ， 进 而 利用 SAS 提 供 的 分 析 功 能 对 数据 进行 分 
析 、 或 进行 报表 制作 。 当 然 ， 也 可 用 Microsoft SharePoint 门 户 ， 以 及 Windows 的 桌面 应 用 SAS Enterprise Guide 来 实现 对 后 端 SAS 服 务 器 的 访问 。 


1.SAS Add-ln for Microsoft Office 


SAS Add-ln for Microsoft Office 是 SAS Office Analytics 的 客户 端 ， 其 扩展 了 Microsoft Office 应 用 程序 的 功能 ， 使 用 户 可 以 使 用 Microsoft Excel、Microsoft Word、Microsoft PowerPoint 和 
Microsoft Outlook 的 集成 菜单 和 图 标 对 SAS 智 能 平台 的 数据 进行 访问 ， 并 利用 后 端的 SAS 服 务 器 资源 对 数据 进行 分 析 ， 同 时 生成 报表 。 这 极 大 地 方便 了 熟悉 Microsoft Office 但 又 需要 使 用 SAS 分 析 处 理 功 


能 的 广大 用 户 。 


通常 ，SAS Add-ln for Microsoft Office 为 Excel、Word 和 PowerPoint 提 供 了 相同 的 功能 ， 
可 使 用 更 多 的 功能 ， 
息 ， 但 是 不 能 创建 报表 或 运行 SAS 任 务 。 


包括 查看 报表 和 仪表 板 、 运 行 分 析 、 人 生成 报表 以 及 与 其 他 用 户 共享 相应 的 SAs 内 容 等 。 不 过 ， 在 Excel 中 还 
例如 打开 、 复 制 、 编 辑 数 据 源 等 。 值 得 一 提 的 是 ，SASs Add-ln for Microsoft Office 为 Outlook 提 供 的 功能 却 相 对 独特 ， 在 Outlook 中 可 以 查看 报表 和 仪表 板 ， 并 与 其 他 用 户 共享 信 


在 安装 SAS Add-ln for Microsoft Office 时 ，SAS 选 项 卡 会 自动 集成 到 Excel、Word 和 PowerPoint 中 。 使 用 该 SAS 选 项 卡 中 提供 的 菜单 或 工具 ， 可 以 直接 在 这 些 Microsoft Office 应 用 程序 中 使 用 SAS 


分 析 和 报表 功能 。 


SAS Add-In for Microsoft Office 包 括 了 近 80 个 SAs 任 务 ， 能 够 执行 各 种 分 析 ， 例 如 线性 回归 、 非 线性 回归 、 多 元 分 析 、 时 间 序 列 分 析 、 单 向 频率 和 汇总 统计 等 。 还 可 以 刷新 这 些 分 析 ， 


以 保证 分 析 使 用 最 近 的 数据 ， 从 而 使 分 析 结 果 中 包含 最 新 信息 。 分 析 的 结果 也 可 以 很 容易 地 与 其 他 用 户 共享 。 


图 25.2 给 出 了 使 用 SAS Add-ln for Microsoft Office 运 行 线性 模型 的 结果 。 


Fr 





























罗 | -|s Bookl - hicrosoft Excel El se 
File Home Insert Page Lavout Formulas Cata REwiewwy "Wien Sh 和 和 一 钱 殖 
| Modify E A 

太 局 全 J EN 
ss | : 茸 © 国 Properties SN 只 
$5 Tasks Reports tuick EL Refresh Panage Tools Help | 
Data wv stat = Favorites = Ortent 下 可 | 
Inseit I $eElection Tools | 
ATl = ”下 | Generated by SA5 (SASApp, Linux) on January 27 2014 at 1:50:00 AM | 
1 Linear Nodels | 让 
| 
号 Class Level Informati on 
4 Class LevelslYal 
5 _| 
三 
了 Number sf Observations Red 19 
8 Nmber of Observations Usd 19 
日 
10 Generated by SAS ( SASApE , Limr) on January 27，201 业 at 1:50:00 AN | 
[ml 
12 
13 Limea Models 
]4 
15 Dependent Variable: Weieht 
1 
17 
18 
19 Nodel | 1 190100. 0132| 190100. 0132 366. 53| “0.0000 
20 Error | 18 9335.7368| 5l86520| | | 
3 199435.7500| | | 
2 
23 | R-Square Coeff Yar Root NWSE|Weight Nean 
站 D0. 00000 ,TBTO 和 4 Se 100. O263 
二 
26 Type I SS| Nean Square|  F Value| Pr > 下 
27 Intercept | 1 190oloo.0l3sz| 190100.0132| 366.53| 0.0000 -| 
Hb HM| Sheetl Sheet2 Sheet3 PO , HA _ ss 图 
Ready | | 国 回 固 100% (=) 品 ( 寺 ) ,i 


图 25.2 SAS Add-In for Mictosoft Office 中 的 线性 分 析 结 果 


在 SAS Add-ln for Microsoft Office 中 还 可 以 打开 或 运行 在 SAS Enterprise Guide、SAS Web Report Studio 或 SAS Visual Analytics 等 其 他 SAS 应 用 里 创建 的 报表 或 存储 过 程 。 


2.SAS Enterprise Guide 


SAS Office Analytics 软 件 包 中 包含 了 Windows 桌 面 应 用 SAS Enterprise Guide (SAS EG) 。 
容易 地 创建 报表 、 图 形 和 图 表 ， 以 及 交付 分 析 结 果 和 信息 。 


它 通过 图 形 化 界面 提供 了 对 SAs 分 析 能 力 的 访问 。 用 户 可 通过 其 中 集成 的 向 导 完 成 分 析 过 程 ， 并 且 能 够 很 


SAS EG 提供 了 各 种 数据 的 导入 、 处 理 、 描 述 、 图 形 、 分 析 等 预定 义 任务 。 在 EG 中 可 创建 流 ， 还 可 以 在 流 中 使 用 这 些 预定 义 任务 对 数据 进行 处 理 和 分 析 ， 最 后 生成 ODS 输 出 或 SAS 报 表 等 ， 如 图 25.3 所 


示 。 所 生成 的 结果 可 通过 SAS 发 布 框架 进行 分 发 。 


在 SAS EG 中 可 开发 SAS 程 序 ， 其 集成 了 带 语法 帮助 的 SAS 程 序 编辑 器 ， 能 够 提高 SAS 程 序 的 开发 效率 。 在 EG 中 ， 所 开发 的 SAS 程 序 可 以 创建 为 存储 过 程 。 SAS 信 息 映 射 、SAS Web Report Stuido 等 可 


以 调用 这 些 存 储 过 程 来 执行 SAS 程 序 ， 并 产生 输出 和 结果 。 


用 户 还 可 以 在 SAS EG 中 查看 使 用 SAS Web Report Studio 创 建 的 报表 ， 并 且 可 对 OLAP Cube 进 行 钻 取 、 动 态 切 片 和 探索 等 研究 。 
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图 25.3 SAS Entetptise Guide 中 的 流 


SAS EG 集成 了 SAS 网 格 计算 能 力 和 高 性 能 分 析 能 力 。 在 SAS 用 以 实现 高 性 能 大 数据 支持 的 网 格 计算 环境 或 内 存 分 析 环 境 中 ， 通 过 适当 的 配置 ， 用 户 可 以 在 SAS EG 中 将 任务 提交 到 该 环境 中 运行 ， 以 提高 
任务 运行 效率 。 


3.SAs Management Console 


SAS Management Console 是 一 个 Java 应 用 程序 ， 它 提供 了 对 整个 智能 价值 链 资源 进行 管理 的 统一 界面 。 此 统一 界面 可 用 于 执行 创建 和 维护 跨 多 个 平台 的 集成 环境 所 要 达成 的 管理 任务 ， 而 且 不 必 为 
计算 环境 中 的 每 个 应 用 使 用 单独 的 管理 界面 。 在 SAS Management Console 中 ， 可 以 管理 以 下 内 容 : 


` 服务 器 定义 
用户、 组 和 角色 定义 
. 资源 访问 控制 

' 元 数据 存储 库 

. 作业 调度 


通过 SAS Management Console， 不 但 可 以 创建 和 维护 每 种 计算 资源 的 元 数据 ， 而 且 可 以 创建 和 维护 元 数据 来 定义 访问 和 管理 这 些 计算 资源 的 权限 控制 。 这 些 元 数据 人 存储 在 SAs 元 数据 服务 器 上 的 存储 
库 中 ， 可 以 被 应 用 程序 使 用 。 


图 25.4 为 SAs Management Console 的 界面 。 
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图 25.4 SAS Management Console 界 面 


25.2.2 SAS Enterprise Bl Server 


SAS Enterprise Bl Server (企业 商业 智能 服务 器 ) 为 商业 智能 报告 提供 全 面 的 解决 方案 ， 包 括 Web 形 式 的 门户 功能 、 可 定制 的 仪表 板 以 及 报告 调度 等 。 本 节 主 要 介绍 SAS Enterprise Bl Server 的 各 个 
主要 客户 端 。 上 节 介 绍 过 的 SAS Enterprise Guide 和 SAS Management Console， 也 属于 它 的 组 成 部 分 ， 因 此 这 里 不 再 介绍 。 


1.SAS Information Map Studio 


SAS 信 息 映射 (Information Map) 是 在 数据 仓库 的 数据 源 的 业务 元 数据 层 上 实现 的 ， 它 只 会 描述 数据 的 结构 和 内 容 ， 并 不 包含 任何 物理 数据 。 作 用 是 给 业务 用 户 提供 一 种 从 业务 角度 去 理解 物理 数据 
的 工具 ， 从 而 使 业务 人 员 可 以 不 依赖 数据 仓库 的 管理 员 而 自主 地 使 用 和 分 析 数 据 ， 并 获取 结 


SAS 信 息 映 射 是 通过 SAS Information Map studio 创 建 的 ， 其 数据 源 可 以 是 在 SAs 中 使 用 的 任意 数据 源 。 如 图 25.5 所 示 为 在 SAs Information Map studio 中 设计 或 查看 信息 映射 的 界面 。 左 侧 窗口 显 
示 元 数据 中 的 所 有 数据 源 ， 中 间 为 所 选取 的 用 于 创建 信息 映射 的 表 ， 右 侧 为 信息 映射 。 
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图 25.5 SAS 信息 映 射 
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在 信息 映射 中 可 以 包含 数据 项 和 过 滤器 。 数 据 项 可 以 是 数据 源 中 的 数据 字段 或 数据 字段 的 计算 项 ， 过 滤器 包含 对 数据 取 子 集 的 条 件 ， 这 些 都 会 用 于 创建 查询 。 还 可 使 用 文件 夹 来 组 织 数据 项 和 过 滤器 ， 


这 样 用 户 在 使 用 信息 映射 时 就 可 以 很 容易 地 找到 需要 的 信息 了 。 


言 息 映射 使 数据 存储 对 用 户 透 明 ， 无 论 数据 是 SAS 数 据 集 、 多 维 数据 ， 还 是 第 三 方 数据 源 ， 它 们 所 使 用 的 信息 映射 方式 都 是 相同 的 。 所 生成 的 信息 映射 可 以 在 Base SAS、SAS Add-ln for Microsoft 
Office、 SAS Enterprise Guide、SAS Information Delivery Portal、SAS Marketing Automation、SAS Web Report Studio、SAS BI Dashboard 等 SAs 产 品 中 使 用 。 


2.SAS OLAP studio 


SAS 在 线 分 析 处 理 (Online Analytical Processing，OLAP) 是 用 于 创建 决策 支持 软件 的 技术 。OLAP 使 用 户 能 够 快速 地 从 多 个 业务 角度 (多维) 分 层级 地 分 析 汇 总 生成 的 多 维 立方 体 。OLAP 技 术 通 过 


将 可 预测 的 分 析 维 度 和 分 析 路 径 提前 汇总 到 多 维 立方 体 中 ， 来 提供 比 传统 数据 库 访 问 工具 更 好 的 性 能 。 


通常 ，SAS 的 多 维 立 方 体 (OLAP Cube) 在 客户 端 应 用 程序 SAs OLAP Cube Studio 中 设计 、 创 建 和 维护 。 创 建 汇 总 OLAP Cube 的 工作 由 SAS 工 作 区 服务 器 完成 ， 而 使 用 OLAP Cube 时 提交 的 查询 则 


是 通过 SAS OLAP 服 务 器 进行 处 理 的 。 


如 图 25.6 所 示 为 在 SAS OLAP Cube Studio 中 创建 立方 体 的 向 导 。 
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图 25.6 ”创建 SAS OLAP 立 方 体 向 导 


所 创建 的 多 维 立方 体 可 以 在 SAS Enterprise Guide、SAS Information Map Studio、SAS Web Report Studio、SAS Add-ln for Microsoft Office， 以 及 SQL Pass-Through Facility for OLAP 等 
SAS 产 品 中 使 用 。 如 图 25.7 所 示 为 在 SAS Web Report Studio 中 引用 多 维 立方 体 的 示例 。 
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3.SAS Web Report Studio 


SAS Web Report Studio 是 用 于 查看 、 交 互 、 创 建 和 分 发 报告 的 Web 应 用 。 用 户 可 以 根据 当前 的 需要 简单 地 打开 存在 的 报表 并 交互 信息 ， 
加 提示 ， 并 设计 表 、 图 形 和 文本 的 布局 ， 从 而 创建 良好 格式 的 报告 
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图 25.7 ”引用 SAS OLAP 立 方 体 


对 报表 进行 查看 、 回 复 或 添加 评论 ， 也 可 以 通过 拖 放 功能 来 添 
。 还 可 以 通过 预定 周期 性 地 产生 报表 ， 并 可 使 用 电子 邮件 进行 分 发 。 


如 图 25.8 所 示 为 在 SAS Web Report Studio 中 查看 报表 的 示例 。 
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图 25.8 SAS Web Report Studio 中 创建 的 报表 
在 创建 报表 时 可 使 用 到 前 面 介绍 的 信息 映射 ， 用 户 不 需要 理解 复杂 的 数据 结构 和 数据 库 即 可 完成 报表 的 创建 。 此 外 ， 在 SAs Report Studio 中 还 可 以 运行 SAS 存 储 过 程 ， 将 其 呈现 为 报表 的 一 部 分 。 
SAS Web Report Studio 将 查询 、 报 表 和 分 析 能 力 集成 到 了 一 个 基于 Web 的 工具 中 ， 这 样 更 大 范围 的 用 户 能 够 使 用 它 来 满足 复杂 的 信息 需求 。 


4.SAS Bl Dashboard 


SAS BI Dashboard 支 持 用 户 使 用 仪表 板 来 监控 反映 组 织 运 营 状 况 的 关键 绩效 指示 器 。 仪 表 板 中 可 包含 图 形 、 文 本 、 颜 色 和 超 链 接 。SAS BI Dashboard 提 供 基于 Web 的 界面 来 创建 、 维 护 和 查看 仪表 
板 。 


SAS BI Dashboard 中 的 仪表 板 易于 设计 、 定 制 和 创建 。 在 仪表 板 中 可 使 用 多 种 数据 源 ， 包 括 SAS 信 息 映 射 、SAS 存 储 过 程 、SQL 查 询 以 及 SAS 表 等 ， 如 图 25.9 所 示 。 在 仪表 板 的 设计 器 中 ， 可 使 用 拖 放 
功能 对 仪表 板 的 内 容 进 行 定制 设计 ， 从 而 提供 所 见 即 所 得 的 仪表 板 视 图 。 
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图 25.9 ”BI Dashboard 设 计 器 


业务 用 户 可 在 Bl Dashboard 查 看 器 中 查看 所 创建 的 仪表 板 。 在 仪表 板 查 看 器 中 ， 可 以 以 交互 方式 查看 数据 ， 为 喜欢 的 仪表 板 和 指示 器 添加 书签 ,创建 个 人 化 警告 ， 以 及 与 其 他 业务 用 户 分 享 关于 仪表 板 
中 指示 器 的 评论 等 。 如 图 25.10 所 示 为 在 SAS Bl Dashboard 查 看 器 中 查看 仪表 板 的 示例 。 


5.SAS Information Delivery Portal 


SAS Information Delivery Portal (SAS Portal) 提供 基于 Web 的 用 户 界面 ， 用 户 能 够 通过 该 界面 访问 企业 的 各 种 信息 并 在 其 中 进行 导航 。 这 些 信息 包括 报表 、 图 表 、Web 应 用 、 文 档 ， 以 及 内 部 或 外 
部 网 页 链接 等 。 还 可 以 在 SAS 系 统 中 进行 安全 性 配置 ， 使 用 户 只 能 看 到 自己 被 授权 访问 的 信息 。 


SAS Portal 的 个 人 化 特性 使 用 户 能 够 创建 和 定制 Portal 页 面 和 内 容 ， 使 其 只 包含 用 户 感 兴趣 的 信息 ， 并 以 期 望 的 形式 展现 。 在 Portal 页 面 里 ， 可 以 订阅 发 布 频道 以 持续 获取 更 新 信息 。 


SAS Portal 使 用 SAS BI Portlet 组 织 Portal 页 面 的 信息 。 如 图 25.11 所 示 给 出 了 SAs Portal 页 面 的 示例 。 
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图 25.10 ”查看 仪表 板 
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图 25.11 SAS Portal 页 面 


SAS BI Portlets 是 基于 JSR 168 规 范 的 Portlets， 可 以 无 颖 地 集成 到 SAS Information Delivery Portal 中 。SAS BI Portlets 使 用 户 能 够 访问 、 查 看 或 操作 存在 于 SAS 元 数据 服务 器 或 SAS Content Server 
中 的 内 容 。SAS BI Portlets 套 件 包含 SAS Collection Portlet、SAS Navigator Portlet、Report Portlet、Stored Process Portlet、BI Dashboard Portlet 以 及 Diagnostics Portlet。 


(1) SAS Collection Portlet 


用 户 使 用 SAS Collection Portlet 能 够 创建 各 种 可 以 通过 SAs 内 容 查看 器 访问 的 SAs 内 容 项 的 列表 ， 并 提供 了 联合 搜索 界面 实现 添加 和 删除 项 。SAs Information Delivery Portal 仅 支持 一 部 分 SASs 内 容 


(2) SAS Navigator Portlet 


， 不 支持 Portlet、 页 面 和 页 面 模板 ， 也 不 直接 支持 发 布 框架 (Publication Framework) ， 但 是 可 以 通过 使 用 频道 间接 显示 发 布 包 。 


用 户 可 以 使 用 SAS Navigator Portlet 导 航 元 数据 服务 器 中 的 文件 夹 ， 并 定位 SAS 内 容 ， 例 如 报表 和 存储 过 程 ， 也 可 访问 SAS Content Server 中 的 WebDAV 文 件 夹 及 其 内 容 。 


(3) SAS Report Portlet 


SAS Report Portlet 允 许 用 户 以 静态 HTML 格 式 显 示 SAS 报 表 。 使 用 该 Portlet， 用 户 可 在 SAS Web Report Studio 内 进行 钻 取 ， 以 利用 所 有 报表 的 功能 。 


(4) SAS Stored Process Portlet 


SAS Stored Process Portlet 使 用 户 能 够 显示 存储 过 程 的 输出 。 在 编辑 模式 中 ， 用 户 可 以 管理 运行 存储 过 程 时 需要 使 用 的 参数 。 


(5) SAS Bl Dashboard Portlet 


SAS BI Dashboard Portlet 使 用 户 能 够 访问 SAS Bl Dashboard， 并 且 可 显示 在 SAS Bl Dashboard 中 创建 的 仪表 板 。 
(6) SAS Diagnostics Portlet 


Diagnostics Portlet 使 管理 员 能 够 确定 SAS Portal 环 境 的 当前 状态 。 其 他 用 户 根据 其 权限 或 许 能 够 查看 部 分 信息 。 
7.SAS Web Parts for Microsoft SharePoint 


SAS Web Parts for Microsoft SharePoint 使 用 户 能 够 在 Microsoft Sharepoint 页 面 中 显示 SAS Bl Dashboard 和 SAS 分 析 ， 包 括 以 下 内 容 : 
. SAS BI Dashboard Web Part， 显 示 仪 表 板 和 KPI， 使 用 户 能 够 监视 企业 绩效 。 


* SAS Stored Process Web Part， 使 用 户 能 够 在 SharePoint 页 面 中 查看 存储 过 程 的 运行 结果 。 


25.3 ”SAS 数据 管理 和 集成 


数据 集成 指 的 是 整合 来 自 各 种 数据 源 的 数据 ， 并 产生 统一 的 集成 数据 的 过 程 。SAS 管 理 和 集成 软件 及 技术 可 以 连接 、 获 取 、 存 储 和 管理 数据 ， 并 应 用 SAS 数 据 质量 软件 ， 对 数据 进行 清洗 和 增强 ， 从 而 提 
供 一 致 、 准 确 、 可 靠 的 数据 访问 。 在 必要 的 时 候 ，SAs 的 数据 管理 和 集成 功能 可 以 将 数据 写 回 各 种 数据 存储 、 数 据 流 、 应 用 程序 和 系统 中 ， 例 如 ，ERP 系 统 、 关 系 型 数据 库 管理 系统 、 平 面 文 件 、 各 种 历史 遗 
留 系统 、 消 息 队 列 和 XML 文件 等 。 


25.3.1 ”SAS 数据 集成 


SAS 数 据 集成 的 主要 产品 为 SAS Data Integration Server， 其 客户 端 为 SAS Data Integration Studio。 通 过 SAS Data Integration Studio， 用 户 可 以 创建 作业 提取 、 转 换 和 加 载 整个 企业 的 所 有 数 
据 ， 从 而 产生 一 致 准确 的 信息 ， 还 可 以 在 不 同 的 业务 系统 和 数据 源 之 间 迁 移 、 同 步 和 复制 数据 。 


SAS Data Integration Studio 提 供 了 图 形 化 界面 ， 设 计 人 员 通 过 鼠标 单 击 就 能 够 构建 流程 ， 快 速 识别 输入 和 输出 ， 在 元 数据 中 创建 业务 规则 ， 并 且 可 快速 生成 数据 仓库 、 数 据 集 市 和 数据 流 等 。 如 图 
25.12 所 示 为 在 SAS Data Integration Studio 中 对 两 个 表 进 行 联合 的 作业 流 示例 。 
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图 25.12 SAS Data Integration Studio 的 联合 作业 流 


SAS Data Integration Studio 中 还 集成 了 SAS 数 据 质量 软件 。 利 用 SAS Data Integration Studio 除 了 可 以 通过 数据 转换 来 改变 、 重 新 格式 化 并 整合 数据 以 外 ， 还 可 以 应 用 实时 数据 质量 技术 来 对 数据 进 
行 清 理 ， 甚 至 可 以 构建 可 重用 的 业务 规则 库 。 


25.3.2 ” SAS 数据 质量 管理 


SAS Data Quality Server (数据 质量 服务 器 ) 包含 下 列 组 成 部 分 : 
. 质量 知识 库 (Quality Knowledge Base，QKB) 
. 执行 质量 知识 库 中 预定 义 的 数据 质量 操作 的 SAS 语 言 元 素 
.与 DataFlux Data Management Platform (DataFlux 数 据 管理 平台 ) 进行 交互 的 组 件 


SAS Data Quality Server 与 DataFlux Data Management Platform 进行 通信 ， 以 提供 一 个 集成 的 数据 管理 系统 。 该 集成 系统 通过 数据 质量 、 数 据 集成 、 主 数据 管理 ， 以 及 数据 访问 接口 来 管理 数据 资 


DataFlux Data Management Studio 是 与 SAS Data Quality Server 交 互 的 客户 端 软件 。 


25.3.3 DataFlux 数 据 管理 平台 


DataFlux 数 据 管理 平台 使 用 户 能 够 以 集中 的 方式 设计 、 部 署 和 维护 企业 数据 。 该 平台 的 主要 组 件 包 括 DataFlux Data Management Server、SAS Federation Server、DataFlux Authentication 
Server、DataFlux Web Server， 以 及 客户 端 DataFlux Data Management Studio 和 DataFlux Web Studio。 


1.DataFlux Data Management Server 


DataFlux Data Management Server (DataFlux 数 据 管 理 服务 器 ) 通过 集成 实时 数据 质量 、 数 据 集成 和 数据 管理 程序 ， 在 企业 各 个 方面 应 用 部 署 数 据 质 量 、 数 据 集成 、 业 务 流程 和 主 数 据 管 理 
(Master Data Management，MDM) ， 从 而 提供 一 致 、 准 确 、 可 靠 的 数据 访问 。 使 用 DataFlux 数 据 管 理 服务 器 ， 还 可 以 跨 应 用 程序 和 系统 复制 业务 规则 ， 建 立 企 业 统一 的 数据 资源 系统 。 


该 数据 管理 服务 器 是 采用 面向 服务 的 架构 (Service-Oriented Architecture，SOA) 的 应 用 程序 服务 器 ， 能 够 执行 实时 数据 服务 和 实时 流程 服务 。 这 些 服务 可 以 通过 任何 的 Web 服 务 应 用 程序 来 调用 ， 
也 可 以 将 现 有 的 批 处 理 作业 转换 为 实时 服务 ， 以 重用 所 开发 的 数据 迁移 或 加 载 数据 仓库 业务 逻辑 ， 以 及 在 数据 录入 点 启用 实时 服务 ， 以 确保 整个 企业 使 用 一 致 、 准 确 、 可 靠 的 数据 。 同 时 ， 该 服务 器 还 提供 
了 应 用 编程 接口 API 来 调用 质量 知识 库 QKB， 以 进行 数据 分 解 、 标 准 化 、 匹 配 键 的 生成 、 地 址 验证 等 处 理 。 


2.SAS Federation Server 


SAS Federation server (SAS 联 合 服务 器 ) 是 使 用 多 线程 的 多 用 户 技术 对 异 构 数据 源 进 行 整合 的 可 扩展 数据 服务 器 。 该 服务 器 充当 集线器 ， 通 过 访问 、 管 理 和 共享 SAs 数 据 以 及 第 三 方 天 系 型 数据 库 来 
为 客户 端 提供 数据 。 


3.DataFlux Authentication Server 


DataFlux Authentication Server (DataFlux 认 证 服务 器 ) 提供 跨 多 个 域 和 多 个 操作 环境 的 认证 管理 中 心 功能 。 


4.DataFlux Data Management Studio 


DataFlux Data Management Studio 可 以 单独 使 用 ， 也 可 与 上 述 服务 器 一 起 使 用 ， 是 开发 、 测 试 和 管理 DataFlux Data Management Server 的 客户 端 。 它 提供 了 元 数据 分 析 、 数 据 特征 描述 、 数 据 质 
量 、 数 据 整合 、 数 据 监 视 、 地 址 验证 、 数 据 丰富 以 及 主 数据 管理 的 界面 。 通 过 DataFlux Data Management Studio， 用 户 能 够 创建 、 测 试 并 上 传 批 处 理 作 业 、 特 征 描绘 作业 、 实 时 数据 服务 ， 以 及 实时 流 
程 服务 。 


如 图 25.13 所 示 为 DataFlux Data Management Studio 的 作业 窗口 示例 。 
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图 25.13 ”DataFlux Data Management Studio 作 业 窗 口 


5.DataFlux Web studio 和 DataFlux Web Server 


DataFlux 数 据 管理 还 包括 DataFlux Web Studio。DataFlux Web studio 提供 了 基于 Web 的 管理 工具 ， 使 用 户 能 够 通过 Web 浏 览 器 执行 数据 管理 任务 。 所 有 DataFlux Web Studio 模 块 支持 的 作业 都 


由 DataFlux Web Server 运 行 。 


25.3.4 ”SAS 主 数据 管理 


主 数据 管理 用 于 寻找 或 创建 一 条 记录 ， 该 记录 包含 要 了 解 一 个 特定 的 人 、 位 置 、 产 品 、 供 应 商 、 业 务 或 其 他 实体 需要 知道 的 所 有 信息 。 该 记录 称 为 实体 的 幸存 记录 ， 也 称 为 主 记录 或 黄金 记录 。 主 数据 
管理 的 目标 是 ， 对 于 业务 重要 的 每 个 实体 ， 只 有 一 个 主 记录 定义 。 实 体 是 用 于 主 数据 管理 中 业务 流程 的 核心 要 素 。 这 个 实体 可 以 是 在 业务 系统 中 使 用 的 单个 客户 、 产 品 、 网 站 、 账 户 或 任何 其 他 数据 元 素 。 


SAS MDM 是 通过 SAS Data Management Console (SAS 数 据 管理 控制 台 ) 访问 的 基于 Web 的 应 用 程序 。SAS MDM 将 来 自 不 同 数据 源 的 信息 整合 到 一 个 主 记录 ， 以 便 为 企业 数据 提供 唯一 、 准 确 、 
统一 的 视图 。 使 用 SAs 可 以 开发 主 数据 管理 流程 ， 分 析 现 有 数据 资源 ， 构 建 信息 的 统一 视图 并 管理 数据 主 视图 。 


如 图 25.14 所 示 为 登录 SAS Data Management Console 后 的 界面 示例 。 
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图 25.14 SAS Data Management Console 界 面 


SAS MDM 还 包括 SAS 数 据 修复 (SAs Data Remediation) 和 SAS 任 务 管理 器 (SAS Task Manager) 。SAS 数 据 修复 使 用 户 能 够 通过 SAS MDM 批 处 理 作 业 和 实时 流程 中 的 业务 规则 进行 管理 ， 并 触 
发 校正 数据 中 存在 的 问题 ， 如 图 25.15 所 示 。 





A 


Datas Renmediatian 


图 | 党 





让 rad Hy 


EA 


8 






































WiiDoRMS BUKEMRACT | MEBEYGOROSENOR INDIVIDUAL BAS MDW 入土 击 备 广 。 Opin iumimowni 加 00/243 12.2007 Ph 
想 IvVaDoRMsS BUKETRACT MEBEYSTRASSER | INDMIDUAL Sn MOU 疝 直 向 向 Open | turinown] 0 O00 T2007 Ph 
杞 INVAD OR Ms. BULKEXTRACT AEBI LACUE INCIViCDUAL Bag NCU | 童 本 而 刘 让 | Open 加 mimewnl E O24113 12-2007 PE 
息 INAUD ORMS.. BULKETRACT AEBIE ELDER INCIVICYUAL Sag MCM 合计 南 商 让 | De | uninown) 9 0413 位 2007 PY 
区 INViLio or ns 硬 LKERTRAET ' AEBIE KORENEROCE Ci 3 MD | 证 证 二 齐 证 Depan union 和 [rE ke si | 
二 INV OR is. BULK EXTRACT | ABBIE YIP | INGMIOUAL Sad NCA 高 家 夫 宙 六 Opan | 和 manmownml 0 0413 122007 PS 
区 INVAUID OR MS BULKEXTRACT AEBY WECHTER INCIVICDYUAL SAS MD 二 而 而 曾 放 | (Opn 人 ninewm 0 QW2413 122007 PY 
本 IvaD DRIES BULKEXTRACT MEE HEAFEY INGMVIGUAL AS MICU 全 宙 夫 六 I Progress | Ron Agresta 9 0 122007 Ph 
区 Iauio oR i | ULK EXTRAGT | AEE HEINTZ INGMVIDUAL GAS MCA | 语言 商 商 i | EEN Hur | 间 Dl 122007 Ph 
本 INVAIDORMS BUKEXTRACT | AEENOFPP INGVIOUAL S23 NCU 侧 击 而 雷 放 | Open | 机 rimvown) 8 全 1 位 的 0 Ph 
重 INwAUD ORMS BUKEXTRACT | AEESODERSTROU INGIVIDUAL SS MOU 辣 亩 调调 Pd 加 minyownil 10513 122007 Ph 
血 IWwAuD oR be. BULKEXTRACT | AEELARDO QIOVANIS INCMVIDUAL Sg NCU 夫 机 机 Open | urinewn) E 0 2007 PE 
起 NVALID OR IS. BULKEXTRACT ABELARDD LUNBLEY INCMVIDUAL SAS MC 室 富 闸 让 说 | 人 Pd turninewn) 和 O13 N22007 Ph 
本 vaD DORIES BULKETRACT | AEELARDO LUNBLEY INDIVIDUAL SAS NCU 闪闪 二 Cpan | 和 nmimownl [ (0413 12:2007 Ph 
区 IN onise_ ELKIENTIERACT BEELARDO REFIS INCREERLIAL 于 #3 问 C 制 时 而 击 启 Op UPR} 人 TT 
本 INwAUD DRIUES_ FULKEXTRACT | AEELARDO RANHA INGIVIGUAL SAS MOM 言 二 直方 | Opan | uninown) E Oi T22007 Ph 
而 INwauiD oR Ms 本 KEXTRAGT BEELARDG FELENAK INGMWIOALIAL 号 3 半 C 制 | 商机 商机 -1 [二 tr Io dl TE Pl 
章 IWwAuD oR MES BULK ETRACT | AEEUNA CONTESTA_ INCIVICUAL GAS MD 侧面 南 商 汪 | Open | funown] 日 QA 12-2007 PE 
匡 INVALID OR MS BULKEXTRAST AEELINA OBERNOLTE INOMOUAL SAS MOM 音 击 而 计 六 | pa 加 manyowm 站 (013 位 2007 Ph 
和 昌 INVAUD ORMS_ BULUKENXTRACT ADELABELLAVER INDIVIDUAL SA MCA 从 南座 商 Oean | funinown) L O02413 122007 PE 
筷 INVALID OR MIS ING DATA 

号 LD RR 同人 纺 二 四 DT Heald 1: [i BOR SS DTS 
Wem ABBEY BELBY Field2 RGSSD 

Parkane BULK EXTRACT Field 3 

SA IOIVIODAL 

Applicalien: SAS MDM 








# | 是 Case | A Rejedt | BW Creale Task 


图 25.15 SAS 数据 修复 示例 
SAS 任 务 管理 器 是 整合 SAS 工 作 流 技术 的 补充 应 用 程序 。 它 使 用 户 能 够 直接 访问 可 能 已 经 由 另 一 个 SAS 应 用 启动 的 工作 流 。 用 户 可 以 启动 、 停 止 和 转变 已 上 载 至 SAS 工 作 流 服务 器 环境 的 工作 流 。 


如 图 25.16 所 示 为 SAS 任 务 管理 器 界面 示例 。 
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图 25.16” SAS 任务 管 理 器 界面 


25.4 ”SAS 两 业 分 析 


本 节 主 要 介绍 SAs 提 供 的 数据 挖掘 和 文本 挖掘 的 产品 (SAS Enterprise Miner 和 SAs Text Miner) ， 以 及 面向 各 个 业务 领域 的 主要 商业 分 析 解 决 方案 。 
25.4.1 SAS Enterprise Miner 

SAS Enterprise Miner 简 化 了 数据 挖掘 过 程 ， 这 样 就 能 够 通过 对 整个 企业 的 海量 数据 进行 分 析 来 建立 高 精度 的 预测 和 描述 模型 了 。 对 于 各 种 行业 的 不 同业 务 问题 ， 数 据 挖 掘 都 适用 ， 例 如 欺诈 检测 、 客 
户 保留 和 流失 、 数 据 库 曹 销 、 市 场 分 群 、 风 险 分 析 、 客 户 满意 度 和 投资 组 合 分 析 等 。 

在 SAs Enterprise Miner 中 ， 数 据 挖 气 过 程 包括 以 下 (SEMMA) 步骤 : 

1) 对 数据 进行 采样 (3ample) ， 

2) 探索 (Explore) 数据 以 理解 数据 ; 

3) 通过 创建 、 选 择 变量 或 对 变量 进行 变换 以 修正 (Modify) 数据 ; 

4) 使 用 分 析 工 具 和 技术 对 数据 进行 建 模 (Model) ，; 

5) 对 该 数据 挖 扎 过 程 的 有 用 性 和 可 信 性 进行 评估 (Assess) 。 

在 一 次 分 析 中 不 一 定 会 包括 所 有 的 SEMMA 步 又， 但 有 时 也 有 可 能 需要 重复 一 个 或 多 个 步骤 多 次 ， 以 得 到 满意 的 结果 。 


在 SAS Enterprise Miner 中 ， 数 据 挖掘 过 程 由 通过 从 工具 栏 中 拖 搜 节 点 到 流程 图 工作 区 创建 流程 图 来 实现 。 工 具 栏 中 的 节点 使 用 3SEM MA 分 类 组 织 ， 如 图 25.17 所 示 为 在 SAs Enterprise Miner 中 使 用 流 
程 图 进行 建 模 的 示例 。 
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图 25.17 SAS Entetptise Minet 中 的 流程 图 
SAS Enterprise Miner 还 提供 了 先进 的 可 视 化 工具 ， 使 用 户 能 够 在 多 维 直 方 图 中 检查 数据 ， 并 且 可 以 图 形 的 方式 比较 建 模 结果 ， 如 图 25.18 所 示 。 


完成 了 SEMMA 步 又 后 ， 可 以 将 来 自 一 个 或 多 个 冠军 模型 的 完整 打分 过 程 生成 为 SASs 代 码 、C 代 码 或 Java 代 码 。SAs Enterprise Miner 所 生成 的 模型 可 以 注册 到 SAS 元 数据 服务 器 中 ， 以 便 在 SAS 
Enterprise Guide、SAS Data Integration Studio 等 SAS 应 用 分 享 。 
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图 25.18 SAS Enterptise Minet 的 模型 比较 结果 
SAS Model Manager 可 与 SAS Enterprise Miner 完 全 集成 ， 从 而 对 整个 模型 的 开 有 友 、 测 试 和 生产 环境 进行 管理 ， 是 对 数据 挖掘 过 程 的 一 种 补充 。 
此 外 ，SAS High-Performance Data Mining 和 SAS High-Performance Text Mining 这 类 高 性 能 分 析 产 品 也 集成 到 了 SAS Enterprise Miner 中 。 其 表现 为 在 SAS Enterprise Miner 工 具 栏 选项 卡 


HPDM 中 的 一 系列 高 性 能 分 析 节 点 ， 在 流程 图 中 使 用 这 些 节点 可 使 数据 挖掘 或 文本 挖掘 的 过 程 在 ?AS 高 性 能 分 析 框 架 中 运行 ， 以 提高 执行 性 能 。 具 体 本 章 后 面 会 进行 介绍 。 


25.4.2 SAS Text Miner 
SAS Text Miner 用 于 发 现 隐 藏 在 非 结 构 化 文档 集合 中 的 信息 。 它 会 自动 评估 和 理解 来 自任 何 文件 目录 或 基于 Web 文 件 的 文本 ， 从 中 提取 信息 并 揭示 其 主题 和 概念 。SAS Text Miner 支 持 对 多 种 语言 欠 
文本 挖掘 ， 包 括 简体 中 文 、 繁 体 中 文 、 英 语 、 法 语 、 德 语 、 俄 语 、 日 语 、 韩 语 等 。 


SAS Text Miner 将 非 结 构 化 数据 结构 化 ， 因 此 ， 从 文本 挖掘 收集 到 的 信息 可 以 直接 集成 到 SAS Enterprise Miner 项 目 中 。 在 SAS Enterprise Miner 的 流程 图 中 可 使 用 SAS Text Miner 节 点 ， 这 样 就 可 以 
将 结构 化 (定量) 的 数据 分 析 与 非 结 构 化 数据 (自由 格式 文本 ) 分 析 相 结合 。 这 通常 会 产生 更 好 的 模型 ， 并 且 能 够 提供 预知 业务 行为 必要 的 预测 性 详情 。 当 SAS Text Miner 使 用 主题 和 类 别 标 签 定 义 将 非 结 
构 化 数据 结构 化 时 ， 这 些 已 经 变 成 用 数字 表示 的 结构 化 数据 可 用 于 预报 、 优 化 等 任何 SAS 分 析 技 术 。 


如 图 25.19 所 示 为 在 SAS Enterprise Miner 中 使 用 SAS Text Miner 节 点 提取 文本 主题 的 示例 。 
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图 25.19 ”在 SAS Enterptise Miner 进 行文 本 分 析 
SAS Text Miner 还 可 以 与 SAS Enterprise Content Categorization 集 成 ， 结 合 自 定义 的 语义 规则 ， 提 供 更 精确 的 文本 分 析 效 果 。SAS 高 性 能 分 析 产 品 SAS High-Performance Text Mining 将 文本 挖掘 
任务 提交 到 SAS 高 性 能 分 析 平 台 上 运行 ， 以 提高 其 运行 效率 。 
25.4.3 SAS 两 业 分 析 解 决 方案 


基于 SAS 智 能 平台 的 技术 ，SAS 提 供 面 向 银行 、 教 育 、 医 疗 保险 、 零 售 、 生 命 科学 、 制 造 业 等 各 行业 的 解决 方案 ,例如 客户 管理 、 企 业 风 险 管理 、 财 务 管理 和 供应 链 等 。 下 面 给 出 了 常见 的 各 行业 SAS 解 
决 方案 。 


SAS 提 供 了 一 套 完整 的 客户 智能 (Customer Intelligence) 解决 方案 ,使 用 户 能 够 找到 最 佳 盈 利 增 长 机 会 ， 从 而 采取 最 好 的 营销 行动 ， 最 大 限度 地 增加 影响 力 。SAS 客 户 智 能 提供 了 营销 关键 领域 全 面 
的 解决 方案 ， 从 战略 和 规划 ， 到 对 数据 和 分 析 的 洞察 ， 到 优化 客户 互动 ， 最 后 还 充分 利用 了 在 客户 体验 中 所 获得 的 信息 。 


SAS 客 户 智能 解决 方案 包括 : SAS 营 销 运营 管理 (Marketing Operations Management) 、 营 销 自动 化 (Marketing Automation) 、 营 销 优 化 (Marketing Optimization) 、 实 时 决策 管理 
(Real-Time Decision Management) 、 数 字 和 营销 (Digital Marketing) 、 客 户 关联 分 析 (Customer Link Analytics) ， 以 及 社交 媒体 分 析 (Social Media Analytics) 等 。 
2. 欺 诈 和 安全 智能 


SAS 欺 诈 和 安全 智能 (Fraud&Security Intelligence) 扩大 了 SAS 能 力 ， 它 可 提供 分 析 技 术 给 防范 金融 犯罪 的 领域 ， 以 及 公共 安全 、 合 规 甚至 防范 网 络 犯 罪 等 方面 。 其 利用 通用 的 分 析 检 测 和 调查 组 件 
来 处 理 跨行 业 的 所 有 欺诈 、 不 当 支 付 和 合 规 ， 从 而 达到 安全 性 目标 。SAS 欺 诈 和 安全 智能 通过 全 面 跟踪 欺诈 和 安全 趋势 ， 来 早期 识别 大 规模 的 威胁 ， 使 所 采取 的 对 策 能 够 对 欺诈 和 影响 安全 性 的 行为 产生 最 
大 的 影响 。 


SAS 提 供 的 欺诈 和 安全 智能 解决 方案 包含 SAS 反 洗钱 (Anti-Money Laundering) 、 欺 诈 管理 (Fraud Management) 、 欺 诈 框架 (Fraud Framework) 、 银 行业 企业 金融 犯罪 (Enterprise 
Financial Crimes for Banking) 、 欺 诈 网 络 分 析 (Fraud Network Analytics) 等 。 


3. 风 险 管理 


SA3S 企 业 风 险 管理 (Risk Management) 解决 方案 旨 在 帮助 高 级 风险 管理 人 员 及 风险 部 门 ， 通 过 降低 损失 、 提 高 资金 管理 并 在 整个 组 织 中 建立 风险 意识 文化 ， 来 提高 财务 绩效 。SAs 风 险 管理 解决 方案 
可 确保 数据 的 一 致 性 和 完整 性 ， 并 且 可 向 监管 机 构 展示 系统 的 精度 和 控制 ， 以 及 归档 的 审计 跟踪 ， 过 程 透明 ， 同 时 还 有 完整 的 可 追溯 性 ， 从 而 减少 了 合 规 的 时 间 和 成 本 。 


SAS 提 供 的 企业 风险 管理 解决 方案 包括 : High-Performance Risk、Risk Dimension、 银 行业 信用 卡 评分 (Credit Scoring for Banking) 、 资 本 规划 和 管理 (Capital Planning and 
Management) 、 银 行业 信用 风险 管理 (Credit Risk Management for Banking) 、 银 行业 风险 管理 (Risk Management for Banking) 、 保 险 业 风险 管理 (Risk Management for Insurance) 、 
Enterprise GRC， 以 及 OpRisk VaR 等 。 


4. 供 应 链 智 能 


SAS 供 应 链 智 能 (Supply Chain Intelligence) 解决 方案 可 帮助 企业 提供 开发 需求 模式 、 供 应 网 络 和 运营 的 能 力 ， 并 且 可 提供 针对 客户 服务 需求 的 独特 见解 。SAS 使 企业 能 够 将 来 自 交 易 供应 链 管理 
(Supply Chain Management，SCM) 与 ERP 系 统 等 的 所 有 数据 源 的 数据 整合 起 来 ， 为 客户 提供 全 面 的 分 析 和 报告 ， 便 于 更 快 、 更 好 地 做 出 决策 。 


SAS 供 应 链 智能 解决 方案 包括 : 需求 导向 预报 (Demand-Driven Forecasting) 、 库 存 优化 (Inventory Optimization) 、 保 修 分 析 (Warranty Analysis) 、 服 务 备件 优化 (Service Parts 
Optimization) 等 。 


5. 绩 效 管 理 


SAs 提 供 当前 市 场 上 最 广泛 、 最 深入 的 一 系列 绩效 管理 (Performance Management) 产品 。 可 以 帮助 企业 充分 利用 人 员 、 资 金 和 技术 ， 以 实现 短期 、 中 期 及 长 期 的 战略 目标 ， 并 且 可 在 业务 启动 时 
引入 绩效 管理 以 支持 持续 的 过 程 改进 。SAS 绩 效 管理 支持 价值 创造 ， 并 使 组 织 能 够 以 多 种 方式 进行 管理 从 而 提高 绩效 。 例 如 ， 在 不 牺牲 未 来 增长 目标 的 情况 下 控制 成 本 ， 了 解 是 什么 在 驱动 成 本 和 利润 (或 
价值 ) ， 从 而 提高 灵活 性 ， 识 别 并 响应 环境 、 社 会 和 经 营 风 险 及 机 遇 。 


SAS 绩 效 管理 解决 方案 包括 : 财务 管理 (Financial Management) 、 成 本 利润 管理 (Cost and Profitability Management) 等 。 


25.5 ”SAS 高 性 能 分 析 


SAS 高 性 能 分 析 (High-Performance Analytics) 使 用 了 SAS 内 存 分 析 (In-Memory Analytics) 、 库 内 (In-Database) 处 理 和 网 格 计算 (Grid Computing) 技术 来 实现 高 性 能 的 分 析 和 处 理 ， 使 得 
用 传统 分 析 产 品 需要 人 花费 数 天 或 数 周 才能 做 出 的 决策 ， 在 几 分 钟 甚至 几 秒 钟 就 可 以 完成 。 分 析 性 能 的 极 大 提高 使 组 织 机 构 能 够 充分 利用 大 数据 来 做 决策 ， 不 再 需要 在 速度 和 精度 之 间 进 行 选择 。SAs 高 性 能 
分 析 还 能 够 最 好 地 使 用 和 管理 IT 基础 设施 资源 ， 充 分 利用 大 数据 ， 使 企业 适应 未 来 的 增长 需要 ， 并 且 能 提供 卓越 的 可 扩展 性 。 


25.5.1 SAS 内 存 分 析 
SAS 内 存 分 析 (In-Memory Analytics) 使 用 了 分 布 式 架构 和 多 线程 处 理 ， 它 运行 复杂 分 析 计 算 的 处 理 速度 极 快 。SAS 内 存 分 析 的 分 布 式 架构 使 其 可 根据 业务 需求 进行 扩展 。 


SAS 使 用 内 存 分 析 技 术 操 作 的 范围 包括 : 数据 探索 、 数 据 可 视 化 和 对 数据 进行 描述 性 统计 ， 以 及 使 用 先进 的 算法 进行 建 模 、 对 新 数据 进行 评分 。 主 要 产品 包括 SAS Visual Analytics、Visual Statistics、 
In-Memory Statistics for Hadoop， 以 及 高 性 能 分 析 产 品 和 解决 方案 。 


1.SAS Visual Analytics 


SAS Visual Analytics (可 视 化 分 析 ) 是 使 用 了 In-Memory 技 术 的 基于 Web 的 产品 。SAS Visual Analytics 使 组 织 能 够 快速 探索 大 数据 ， 并 从 中 识别 模式 和 趋势 ， 从 而 为 将 来 的 分 析 提 供 依据 。 使 用 SAS 
Visual Analytics 可 将 SAS 的 分 析 能 力 应 用 到 海量 数据 中 ， 加 强 了 数据 的 分 析 能 力 ， 同 时 还 能 快速 并 可 视 化 地 探索 数据 、 创 建 视图 ， 从 而 揭示 数据 的 相关 模式 ， 并 且 可 通过 报表 分 享 信息 。 


SAS Visual Analytics 主 要 包括 如 下 组 件 : 
. SAS Visual Data Builder， 用 来 准备 数据 ， 能 够 汇总 数据 、 联 合 数 据 ， 加 强 了 数据 的 预测 能 力 。 
. SAS Visual Analytics Explorer， 是 一 个 较 高 的 可 视 化 、 数 据 拖 放 界 面 ， 组 合 SAS LASR Analytics Setrvet 可 加 速 分 析 计 算 ， 从 海量 数据 中 分 析 、 获 取 价 值 。 
“SAS Visual Analytics Designer， 能 够 快速 创建 报表 或 仪表 板 ， 这 些 报表 和 仪表 板 可 以 在 移动 设备 或 浏览 器 中 进行 查看 。 


如 图 25.20 所 示 为 在 SAS Visual Analytics Explorer 中 对 数据 进行 探索 的 示例 。 


Insight Toy First Fxploration 
文件 ”编辑 数据 可视化 视图 分析 视图 才 助 


肯 久 日 19 Ce| 加 名 | | 贺 硬 国 加 图 加 加 四 四 图 图 国 巴 区 
数据 [@|* | cross Margin Ratio 


TIESIGHT TOY4 





Facility Country ~ Gross Margin Ratio Focility Comtrs| ™ 
ClLL LY COUNTYES 


vv 闭 类 到 气泡 大 小 
玫 Facility : 
加 Facility Opsning, .. ~ we 颜色 
Product Brand (Wa 
于 Product Bran > S A Wy cross Nargin Ra! 一 
于 Product Line | 


[ra Product Make 


网 Product Style - Facility Country: 
Groxs argin Batio: 15. 4% 


网 Sales Rep 1, 909 ] A ， | 二 

网 Transaction Date 3912 \ “We “人 

抱 Transaction Months 180 : ee Re f > 

网 Transaction Yeekday 5 | 一 人 人 
(sa 


[i Gross Marein Ratio 


15% 





图 25.20 SAS Visual Analytics Explorer 中 创建 数据 探索 


如 图 25.21 所 示 为 在 SAS Visual Analytics Designer 中 设计 报表 的 示例 。 
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图 25.21 SAS Visual Analytics Designet 中 设计 报表 


2.SAS Visual Statistics 


SAS Visual Statistics (可 视 化 统计 分 析 ) 是 SAS Visual Analytics 的 插件 ， 通 过 基于 Web 的 交互 式 可 视 化 界面 ， 对 SAS LASR Analytics Server 中 的 数据 快速 地 进行 统计 建 模 (例如 多 元 回归 、 人 逻辑 回 
归 、 变 量 分 析 、GLM 及 聚 类 等 ) 和 机 器 学 习 (例如 决策 树 、 随 机 预测 及 单纯 贝 叶 斯 等 ) 。SAS Visual Statistics 还 提供 了 并 行 BY 分 组 处 理 (使 用 户 能 够 同时 创建 多 个 模型 并 比较 所 有 的 模型 ) ， 以 及 查看 离 
群 值 及 影响 点 等 的 功能 。 


3.SAS In-Memory Statistics for Hadoop 

SAS In-Memory Statistics for Hadoop 利 用 内 存 分 析 技 术 ， 提 供 统一 的 编程 接口 PROC IMSTAT 过 程 步 。 使 用 该 过 程 可 对 SAS LASR Analytics Server 中 的 数据 进行 快速 的 探索 性 分 析 、 统 计 建 模 和 机 
器 学 习 ， 还 可 以 进行 文本 分 析 、 建 模 比 较 和 评分 ， 并 能 够 进行 数据 管理 。SAS Studio 为 其 提供 了 交互 式 编程 界面 。 
4.SAS 高 性 能 分 析 产 品 


SAS 高 性 能 分 析 产 品 (High-Performance Analytics Products) 允许 用 户 分 析 结 构 化 的 大 数据 和 非 结构 化 的 大 量 文本 数据 ， 其 分 析 速 度 很 快 ， 而 且 能 获取 更 加 及 时 的 信息 。 该 产品 允许 用 户 选 择 使 用 复 
杂 的 建 模 技术 ， 且 可 执行 频繁 的 模型 迭代 来 获取 对 数据 更 加 精确 的 理解 ， 以 便 做 出 准确 及 时 的 决策 。SAS 高 性 能 分 析 产 品 包括 以 下 这 些 : 


(1) SAS High-Performance Data Mining 
允许 用 户 在 SAS Enterprise Miner 中 通过 图 形 化 界面 使 用 大 数据 及 更 多 的 变量 开发 预测 模型 来 获取 对 数据 精确 和 及 时 的 理解 。 
(2) SAS High-Performance Econometrics 
人 允许 使 用 完整 的 数据 ， 而 不 是 数据 的 子 集 开 发 分 析 模 型 ， 可 使 用 大 数据 及 更 多 的 变量 开发 预测 模型 来 获取 对 数据 进行 精确 和 及 时 的 理解 。 
(3) SAS High-Performance Forecasting 
允许 使 用 高 可 扩展 、 分 布 的 内 存 计 算 架 构 为 数 百 万 的 预测 产生 定制 模型 。 
(4) SAS High-Performance Optimization 


能 够 通过 建 模 来 解决 因数 据 较 大 或 其 他 特性 导致 的 难于 解决 或 难于 处 理 的 优化 问题 。 因 为 优化 模型 具有 快速 解决 问题 的 能 力 ， 所 以 可 以 频繁 地 执行 建 模 迭 代 ， 并 使 用 复杂 的 分 析 来 获得 优化 问题 的 答 


着 


(5) SAS High-Performance Statistics 
允许 开发 使 用 大 数据 及 更 多 的 变量 开发 预测 模型 来 获取 对 数据 精确 和 及 时 的 理解 。 
(6) SAS High-Performance Text Mining 
使 组 织 能 够 根据 大 文本 数据 更 好 地 进行 选择 ， 从 而 更 好 地 理解 沟通 并 创造 新 价值 。 
5.SAS 高 性 能 分 析 解 决 方案 


SAS 提 供 了 一 系列 高 性 能 分 析 解 决 方案 ， 以 利用 SAS In-Memory 技 术 来 获取 更 快 的 分 析 速 度 。 目 前 支持 高 性 能 分 析 的 解决 方案 包括 SAS High-Performance Anti-Money Laundering、SAS High- 
Performance Risk、 SAS High-Performance Marketing Optimization 等 。 


25.5.2 SAS In-Database 


SAS In-Database 将 SAs 功 能 扩展 到 了 第 三 方 数据 库 系统 中 。 当 使 用 传统 方法 访问 数据 库 管 理 系统 DBMSs 中 的 数据 时 ，SAs 会 请 求 SAS/ACCESs 引 警 读 取 需 要 处 理 的 数据 ， 并 将 它们 返回 SAs 进 行 处 理 ， 
这 时 ， 如 果 数 据 较 大 ， 则 传输 时 间 受 网 络 带宽 的 影响 就 会 较 长 。 


若 使 用 库 内 技术 ， 可 通过 SAs 应 用 将 命令 和 函数 发 送 到 第 三 方 数据 库 内 部 执行 ， 这 样 既 避 免 了 数据 的 额外 移动 和 转换 ， 同 时 还 利用 了 数据 库 本 身 及 所 在 硬件 环境 的 计算 能 力 。 库 内 处 理 可 以 分 为 多 个 并 
行 任务 在 数据 库 内 执行 ， 每 个 任务 处 理 一 部 分 数据 ， 所 产生 的 结果 最 后 会 进行 整合 并 返回 SAs 应 用 。 通 常 ， 其 执行 时 间 比 数据 传输 到 SAs 服 务 器 然后 再 执行 的 时 间 要 短 得 多 。 


SAS 库 内 的 处 理 功 能 将 SAS 解 决 方案 、SAS 分 析 过 程 和 第 三 方 数据 库 管理 系统 集成 起 来 了 。 其 产品 运行 在 各 种 多 线程 DBMS 以 及 硬件 和 软件 设备 中 ， 例 如 Hadoop、Teradata、Greenplum、Netazza、 
DB2， 可 以 在 数据 库 中 运行 数据 挖掘 模型 的 评分 代码 、 执 行 支 持 的 SAs 过 程 、Ds2 程 序 和 格式 化 SQL 查询 。SAs 提 供 的 库 内 处 理 产 品 主要 包括 以 下 这 些 : 


.SAS 分 析 加 速 器 (SAS Analytics Accelerator) ， 使 其 所 支持 的 Base SAS 过 程 能 够 在 数据 库 环 境 中 执行 ,例如 SORT 和 SUMMARY 过 程 等 。 执 行 时 ， 这 些 SAS 过 程 被 “翻译 ”成 数据 库 本 地 功能 在 数据 库 环 


. SAS 评 分 加 速 器 (SAS Scoring Accelerator) ， 可 以 将 SAS Enterprise Minet 产 生 的 评分 代码 导出 为 函数 。 所 导出 的 函数 可 通过 SAS 过 程 执 行 ， 或 者 使 用 标准 的 SQL 语句 从 第 三 方 或 数据 库 特 定 的 应 用 中 调 
用 ， 该 评分 过 程 在 数据 库 环境 中 进行 。 


:SAS 库 内 代码 加 速 器 (SAS In-Database Code Accelerator) ， 可 以 将 DS2 程 序 发 布 到 数据 库 中 ， 并 在 数据 库 中 并 行 执行 。 


25.5.3 ”SAS 网 格 计算 


SAS 网 格 计算 (Grid Computing) 可 以 将 SAS 任 务 分 布 到 网 络 上 的 多 台 计 算 机 环境 上 ， 所 有 这 些 计算 机 都 在 SAS 网 格 管理 器 (Grid Manager) 的 控制 下 。 在 这 种 环境 中 ， 工 作 负载 会 在 计算 机 组 成 的 
网 格 集群 中 分 布 ， 可 实现 负载 平衡 、 提 高 任务 处 理 速 度 ， 还 可 以 进行 作业 调度 。 


SAs 网 格 管理 器 为 运行 在 共享 网 格 环境 中 的 SAs 产 品 和 解决 方案 提供 了 负载 均衡 、 策 略 执行 ， 资 源 有 效 配置 、 任 务 优先 化 ， 以 及 实现 具有 高 可 用 性 的 分 析 环 境 。 它 还 将 SAs 应 用 与 执行 SAs 应 用 的 基础 设 
施 分 开 ， 能 够 根据 需要 添加 或 删除 硬件 资源 ， 并 提供 了 网 格 基础 设施 内 的 硬件 故障 容错 。SAs 网 格 管理 器 还 集成 了 Platform Suite for SAS 的 资源 管理 和 调度 功能 。 


如 图 25.22 所 示 为 SAS 网 格 计算 的 拓扑 结构 。 
1. 网 格 控制 服务 器 (Grid Control Server) 


该 机 器 控制 到 网 格 的 作业 分 发 。 网 格 中 的 任何 机 器 都 可 以 被 指定 为 网 格 控制 服务 器 。 此 外 ， 也 可 以 选择 是 否 将 网 格 控制 服务 器 配置 为 能 够 接收 工作 的 网 格 资源 。 这 人 台 机 器 必须 包含 Base SAS、 
SAS/CONNECT 和 Platform LSF， 通 常 还 要 包含 Platform Process Manager 和 Platform Grid Management Services (GMS) 。 网 格 控制 服务 器 也 可 以 配置 SAS 工 作 区 服务 器 ， 使 SAS 应 用 (SAS Data 
Integration Studio、SAS Enterprise Miner、SAS Enterprise Guide 和 SAS Add-in for Microsoft Office) 可 以 运行 利用 网 格 的 作业 。 


Central fle server 

- job deployment directories 
-Source and target data 

- SAS log files 





图 25.22 ”SAS 网 格 计算 拓扑 结构 
2. 网 格 节点 (Grid Node) 


这 些 机 器 是 网 格 计算 资源 ， 能 够 接收 分 发 到 网 格 上 的 工作 。 所 需要 的 网 格 节点 的 数目 取决 于 该 网 格 中 运行 的 作业 之 大 小 、 复 杂 性 和 作业 数量 。 可 以 根据 业务 需求 添加 或 删除 节点 。 每 个 网 格 节点 必须 包 
含 Base SAS、SAS/CONNECT、Platform LSF， 以 及 运行 支持 网 格 的 作业 所 需要 的 任何 应 用 程序 和 解决 方案 。 


3. 中 央 文 件 服务 器 (Central File Server) 


该 机 器 用 来 存储 在 网 格 上 运行 的 作业 所 需要 的 数据 。 为 了 简化 安装 和 易于 维护 ， 也 可 以 在 中 央 文 件 服务 器 上 安装 SAS。 


25.6 本章 小 结 


SAS 智 能 平台 提供 了 端 到 端的 基础 架构 平台 ， 实 现 数据 的 获取 、 人 处 理 和 管理 、 分 析 和 信息 的 创建 、 管 理 和 分 发 等 。 在 该 智能 平台 的 基础 上 ，SAS 还 提供 了 以 下 产品 : 


" 商业 智能 产品 ， 向 用 户 提 供 报表 、 查 询 、 多 维 分 析 以 及 深入 的 统计 分 析 等 功能 。 

" 数据 管理 和 集成 平台 ， 实 现 连接 、 获 取 、 存 储 和 管理 数据 ， 并 提供 一 致 、 准 确 、 可 靠 的 数据 访问 。 
" 数据 挖掘 和 文本 挖掘 产 品 ， 满 足 对 结构 化 和 非 结构 化 数据 的 复杂 挖掘 建 模 需 求 。 

“ 面向 各 个 业务 领域 的 商业 分 析 解 决 方案 ， 解 决 面向 特定 领域 的 业务 问题 。 


:高 性 能 分 析 产 品 ， 提 供 对 大 数据 和 大 规模 运算 的 支持 。 


第 26 章 ”SAs 应 用 的 以 构 规划 


上 一 章 介绍 了 SAs 智 能 平台 、 解 决 方案 ， 以 及 高 性 能 分 析 软 件 及 其 功能 。 对 于 SAs 项 目的 实施 人 员 而 言 ， 不 但 要 了 解 SAs 产 品 各 个 模块 的 具体 功能 ， 而 且 要 具备 从 架构 体系 角度 规划 SAs 应 用 的 能 力 。 


本 章 介绍 了 SAS 应 用 的 各 种 主要 架构 和 配置 选择 ， 包 括 对 存储 和 1/O 系 统 的 必要 考虑 ， 以 便 SAS 方 案 架 构 师 和 相关 的 上 T 架 构 师 在 规划 和 构建 SAS 应 用 时 参考 。 


26.1 ”SAS 应 用 的 架构 规划 


SAS 智 能 平台 是 SAS 解 决 方案 的 基础 。 本 节 介 绍 SAS 智 能 平台 的 基本 架构 ， 以 及 为 了 提高 应 用 的 可 用 性 而 在 该 基本 架构 上 实施 的 扩展 。 此 外 ， 还 将 介绍 SAS Grid Manager、SAS 库 内 分 析 和 和 SAS 内 存 分 
析 等 SAS 现 代 化 (Modernization) 系统 架构 。 


26.1.1 ”SAS 应 用 的 架构 


第 25 章 的 图 25.1 给 出 了 SAS 智 能 平台 基础 体系 架构 ， 主 要 包括 : 数据 源 、SAS 服 务 器 、 中 间 层 以 及 客户 端 。 该 架构 使 用 了 n 层 结构 的 设计 理念 ， 可 支持 快速 扩展 以 符合 工作 负载 的 需要 。 例 如 ， 可 以 将 各 
层 组 件 部 署 在 不 同 的 物理 机 器 上 ， 也 可 以 对 各 层 组 件 进 行 高 可 用 和 /或 负载 均衡 配置 ， 此 外 ，SAS 中 间 层 还 可 以 与 其 他 第 三 方 技术 或 产品 进行 集成 。 


本 节 只 从 体系 架构 的 角度 对 SAS 的 元 数据 服务 器 集群 、 计 算 服务 器 负载 均衡 和 SAS Web Application Server 集 群 进行 介绍 。 第 28 章 会 更 全 面 地 介绍 SAs 智 能 平台 各 组 件 的 高 可 用 性 和 负载 均衡 特性 。 
1. 基 本 架构 


对 于 大 型 企业 和 组 织 机 构 ，SAS 智 能 平台 的 各 层 可 以 在 不 同 操作 系统 的 多 台 机 器 上 安装 ， 这 种 部 署 拓扑 称 为 多 机 部 署 。 在 小 型 企业 中 ， 或 者 是 为 了 进行 原型 设计 、 演 示 ， 所 有 的 各 层 可 以 安装 在 同一 台 
机 器 上 ， 该 部 署 称 为 单机 部 署 。 


(1) 单机 部 署 


单机 部 署 指 将 SAS 服 务 器 (包括 元 数据 服务 器 和 计算 服务 器 ) 、 中 间 层 、 客 户 端 均 部 署 在 同一 台 机 器 上 。 采 用 这 种 部 署 意 味 着 ， 用 户 必须 登录 服务 器 所 在 的 物理 机 器 才能 使 用 SAS。 而 且 ， 当 SAS 所 部 署 
的 物理 机 器 上 运行 的 操作 系统 为 UNIX 时 ，SAS Enterprise Guide 等 只 能 运行 于 Windows 操 作 系 统 下 的 客户 端 是 无 法 安装 部 署 的 。 如 前 所 述 ， 单 机 部 署 一 般 用 于 原型 开发 、 概 念 验证 与 演示 等 目的 ， 很 少 用 
于 商业 的 生产 环境 。 


(2) 两 层 部 署 


两 层 部 署 ， 即 将 SAS 客 户 端 与 其 他 组 件 (SAs 服 务 器 和 中 间 层 ) 分 别 部 署 在 不 同 机 器 上 。 可 以 安装 多 个 客户 端 ， 用 户 通过 客户 端 完成 管理 任务 和 分 析 工 作 ， 例 如 用 户 管理 、 提 交 SAS 作 业 (或 SAS 程 序 ) 
到 SAS 服 务 器 运行 等 。 当 选择 这 种 部 署 时 ，SAS 服 务 器 和 中 间 层 可 以 安装 在 UNIX 操 作 环境 上 ， 而 客户 端 则 安装 在 Windows 操 作 环 境 上 。 这 样 ， 用 户 可 以 使 用 Windows 环 境 下 的 SAS Enterprise Guide、 
SAS Data Integration studio 等 客户 端 将 SAs 作 业 提 交 到 远程 的 SAs 服 务 器 进行 分 析 处 理 。 这 种 部 署 架 构 在 小 型 组 织 机 构 中 或 部 门 级 的 应 用 中 较为 常见 。 另 外 比较 常见 的 应 用 场景 就 是 在 项 目的 开发 阶段 ， 
用 于 开发 和 测试 。 


(3) 三 层 部 署 


在 上 面 提 到 的 两 层 部 署 中 ，SAS 服 务 器 和 中 间 层 共享 着 硬件 资源 。 在 SAS 应 用 达到 一 定 的 规模 后 ， 计 算 服 务 器 和 中 间 层 可 能 会 竞争 单 台 机 器 的 硬件 资源 ， 影 响 系统 的 整体 性 能 。 这 时 ， 可 将 SAS 服 务 器 和 
中 间 层 分 开 部 署 。 这 种 部 署 称 为 三 层 部 署 ， 即 SAS 服 务 器 、 中 间 层 以 及 客户 端 。 这 种 部 署 架 构 是 比较 经 典 的 应 用 方式 ， 常 用 于 中 大 型 组 织 机 构 中 。 


(4) 四 层 部 署 


在 三 层 部 署 中 ，SAS 元 数据 服务 器 和 和 SAS 计算 服务 器 共享 硬件 资源 ， 当 SAS 计 算 服务 器 工作 负载 较 高 时 ， 就 可 能 会 影响 对 元 数据 服务 请 求 的 响应 性 能 。 元 数据 服务 是 SAS 系 统 的 关键 服务 ， 元 数据 服务 器 
的 响应 时 间 会 直接 影响 整个 系统 的 性 能 。 这 时 可 以 将 SAS 元 数据 服务 器 和 SAS 计 算 服 务 器 分 开 部 署 。 这 种 部 署 称 为 四 层 部 署 ， 即 : 元 数据 层 、SAs 计 算 层 、 中 间 层 和 客户 端 。 对 系统 性 能 要 求 较 高 的 应 用 ， 建 
议 采 用 四 层 部 署 。 


上 述 部 署 分 层 部 署 可 通过 SAS 的 安装 计划 进行 设置 。 当 实际 应 用 对 高 可 用 性 或 分 析 处 理 能 力 有 更 高 的 要 求 时 ， 可 在 上 述 基 础 体系 架构 上 进行 扩展 。 
2. 元 数据 服务 器 集群 


从 SAS 9.4 开 始 ，SAS 提 供 了 对 元 数据 集群 配置 的 支持 。SAS 元 数据 集群 (SAS Metadata Server Clustering) 最 少 包含 3 个 节点 ， 如 图 26.1 所 示 。 注 意 ， 元 数据 备份 目录 必须 设置 在 3 个 节点 能 够 同时 访 
问 的 共享 文件 系统 中 。 


Tm2 


| SAS Metadata 
server 





图 26.1 SAS 元 数据 集群 


通常 ， 这 3 个 节点 中 首先 启动 的 节点 为 主 节点 ， 其 他 节点 为 从 节点 。 主 节点 根据 轮 询 算法 将 连接 请 求 分 配 到 各 个 从 节点 。 在 3 节点 的 元 数据 集群 中 ， 当 其 中 的 一 个 节点 发 生 故 障 时 ， 连 接 到 发 生 故 障 的 节 
点 的 连接 会 自动 迁移 到 其 他 活动 的 从 节点 中 。 


如 果 对 系统 的 可 用 性 有 较 高 的 要 求 ， 建 议 首先 采用 此 架构 体系 部 署 元 数据 集群 。 


3. 计 算 服 务 器 负载 均衡 


SAS 提 供 了 计算 服务 器 的 负载 均衡 机 制 。SAS 平 台 实施 人 员 或 SAS 管 理 员 可 以 在 多 台 机 器 上 配置 SAS 计 算 服 务 器 ， 并 启用 其 负载 均衡 功能 。 支 持 内 置 负 载 均衡 的 SAS 服 务 器 包括 SAS Workspace 
Server、 SAS Pooled Workspace Server、SAS Stored Process Server 和 SAS OLAP server。 在 该 负载 均衡 配置 中 ， 会 根据 指定 的 负载 均衡 算法 ， 将 来 自 客 户 端的 请 求 分 发 到 不 同 机 器 对 应 的 计算 服务 器 


由 


如 图 26.2 所 示 为 在 两 台 机 器 上 均 配置 上 述 4 种 服务 器 并 为 其 实现 负载 均衡 的 示例 。 当 然 ， 也 可 以 根据 业务 需要 只 配置 其 中 部 分 SAS 计 算 服 务 器 的 负载 均衡 。 在 配置 SAS Workspace Server、SAS Pooled 
Workspace Server 和 SAS Stored Process Server 中 的 任何 SAS 服 务 器 负载 均衡 时 ， 都 必须 配置 SAS Object Spawner， 因 为 这 些 服务 器 的 负载 均衡 机 制 均 由 SAS Object Spawner 管 理 。 


同时 该 架构 还 具有 很 好 的 可 扩展 性 。 可 以 在 更 多 的 机 器 上 进行 类 似 的 配置 ， 并 启用 这 些 服务 器 的 负载 均衡 机 制 ， 以 便 工作 负载 可 以 分 发 到 更 多 的 硬件 机 器 上 。 
如 果 对 计算 服务 器 的 可 用 性 有 较 高 要 求 ， 或 者 计算 服务 器 的 负荷 较 大 (特别 是 并 发 用 户 或 会 话 数 较 大 时 ) ， 建 议 采 用 该 架构 。 
4.SAS Web Application Server 集 群 


SAS Web Application Server 广 持 垂 直 集 群 和 水 平 集群 (参考 28.5.1 节 ) 。 这 里 讨论 的 垂直 集群 ， 指 在 多 个 机 器 上 配置 多 个 同等 的 Web Application Server 实 例 ， 并 将 SAS Web 应 用 程序 部 署 在 这 些 实 
例 中 。 默 认 配 置 下 ，SAS Web Server 会 将 进入 的 请 求 分 发 到 不 同 的 Web Application Server 实 例 中 进行 处 理 ， 从 而 实现 对 SAS Web 应 用 程序 的 负载 均衡 。 


SAS 客户 端 


SAS Stored 
Process Server 


Object Spawner 





图 26.2 ”SAS 计算 服务 器 负载 均衡 


在 配置 SAS Web Application Server 集 群 时 ， 可 以 将 SAS Web Server 配 置 在 单独 的 机 器 上 ，SAS Web Application Server 的 多 个 实例 则 分 别 配置 在 不 同 机 器 上 ， 如 图 26.3 所 示 。 


SAS Web Application SAS Web Application 
Server Server 


SAS Web Applications SAS Web Applications 





图 26.3 SAS Web Application Server 集 群 
当 预 计 SAS Web Application Server 会 成 为 系统 性 能 的 瓶颈 ， 例 如 前 端 报表 查询 的 并 发 用 户 数 庞大 时 ， 或 者 期 望 该 部 分 具备 高 可 用 性 时 ， 建 议 采 用 此 架构 。 


5.SAs 中 间 层 集成 规划 


SAS 的 中 间 层 也 可 以 与 其 他 软件 进行 集成 ， 例 如 配置 TLS、Web 认 证 、IWA， 以 及 与 现 有 反 向 代理 (Reverse Proxy) 集成 等 ， 主 要 是 安全 管理 方面 的 。 关 于 SAS 智 能 分 析 平 台 的 安全 性 更 详细 的 信息 请 
参考 本 书 第 27 章 。 当 对 系统 的 安全 性 有 较 高 要 求 ， 或 者 需要 与 已 经 存在 的 其 他 系统 集成 时 ， 需 要 考虑 这 些 架 构 方案 。 


(1) 配置 TLS 


传输 层 安全 协议 (Transport Layer Security，TLS) 是 SSL 的 后 续 协 议 ， 用 来 提供 网 络 安全 和 隐私 。TLS 除 了 提供 加 密 服务 以 外 ， 还 使 用 受信 任 的 证 书 来 执行 客户 端 和 服务 器 身份 验证 ， 并 使 用 消息 认证 
码 来 确保 数据 的 完整 性 。 


可 以 在 使 用 SAS Deployment Wizard 初 始 部 署 时 选择 启用 TLS 协 议 。 这 时 ，SAS Deployment Wizard 会 自动 将 SAS Web 应 用 程序 配置 为 通过 HTTPS 进 行 访问 。 如 果 在 初始 部 署 时 未 选择 启用 TLS 协 


议 ， 也 可 以 在 SAs 安 装 部 署 完成 后 手动 进行 配置 。 
(2) 配置 Web 认 证 


默认 情况 下 ，SAS Web 应 用 程序 使 用 由 SAS Logon Manager 提 供 的 基于 表单 的 身份 验证 。 和 凭证 提供 给 SAS Logon Manager 之 后 ， 又 被 发 送 到 SAs 元 数据 服务 器 。 然 后 ， 元 数据 服务 器 到 身份 验证 提供 
方 来 验证 该 赁 证。 默认 的 身份 验证 方 是 主机 操作 系统 。 


可 以 将 SAS Web 应 用 程序 配置 为 在 中 间 层 进行 身份 验证 ， 即 Web 认 证 (Web Authentication) ， 当 用 户 登录 到 SAS Web 应 用 程序 时 ， 由 SAS Web Application Server 处 理 初始 身份 验证 。 


实现 Web 验 证 可 促进 SAS Web 应 用 程序 的 单 点 登录 。 当 中 间 层 配置 为 Web 认 证 时 ， 用 户 第 一 次 登录 SAs Web 应 用 程序 时 需 提供 认证 凭证 ， 但 接 下 来 访问 其 他 Web 应 用 程序 时 就 不 需要 重新 进行 身份 认 
证 了 。 


(3) 配置 |WA 


在 用 户 拥 有 Windows 域 账户 的 环境 中 ， 可 使 用 集成 Windows 验 证 (IWA) 。 启 用 IWA 后 ， 用 户 在 访问 应 用 程序 时 ， 应 用 程序 不 会 提示 要 求 提供 用 户 名 和 密码 。 客 户 端 计算 机 上 的 当前 Windows 用 户 信 
息 由 Web 浏 览 器 通过 哈 希 密码 交换 提供 给 SAs Web 应 用 程序 服务 器 。 


在 中 间 层 中 ，IWA 的 关键 组 件 是 Active Directory 控 制 器 、KDC (Key Distribution Center，Kerberos 密 钥 分 发 中 心 ) 、 客 户 端 浏览 器 和 SAS Web 应 用 程序 服务 器 。Kerberos 是 一 种 用 于 验证 用 户 或 主 
机 身份 的 行业 标准 认证 协议 。Kerberos 协 议 使 用 强加 密 ， 客 户 端 可 以 跨 不 安全 的 网 络 连接 向 服务 器 证 明 其 身份 ， 反 之 亦 然 。 使 用 Kerberos 协 议 有 如 下 要 求 : 


“ 客户 端 必须 能 够 直接 连接 到 Active Directory。 
. 客户 端 和 服务 器 必须 都 能 受信 连接 到 KDC， 而 且 与 Active Direcotry 兼 容 。 

可 以 在 使 用 SAS Deployment Wizard 初 始 部 署 时 选择 启用 |IWA， 也 可 以 在 SAs 初 始 部 署 完成 后 再 进行 配置 。 
(4) 与 现 有 反 向 代理 集成 


当 企 业 的 网 络 拓扑 已 经 存在 于 Web 服 务 器 中 ， 且 用 于 代理 连接 时 ， 可 以 重新 配置 SAS 中 间 层 ， 并 使 SAS 中 间 层 与 现 有 的 Web 服 务 器 进行 交互 。 这 时 ， 最 简单 的 配置 方式 是 仍然 保留 SAS 部 署 中 的 SAS 
Web Server。 这 样 一 来 ， 当 SAS Web 应 用 程序 服务 器 配置 为 集群 时 ，SAS Web 服 务 器 可 以 继续 对 到 集群 的 连接 请 求 进行 负载 均衡 。 


(5) 与 第 三 方 安全 管理 软件 集成 
SAS 中 间 层 可 以 与 IBM Tivoli Access Manager WebSEAL、CA Siteminder 等 安全 管理 软件 集成 ， 以 将 SAS Web 应 用 集成 到 企业 已 有 的 安全 系统 中 。 


IBM Tivoli Access Manager WebSEAL 可 保护 Web 应 用 程序 不 被 未 授权 使 用 ， 并 且 可 实现 单 点 登录 。 当 SAS Web 应 用 程序 部 署 在 该 环境 中 时 ，SAS Web 应 用 程序 也 可 以 利用 WebSEAL 提 供 的 架构 来 
处 理 包 括 认证 用 户 和 控制 资源 访问 等 的 安全 性 ， 使 SAS 软 件 部 署 符合 企业 现 有 的 安全 环境 。 


CA Siteminder 是 集中 式 Web 访 问 控制 管理 系统 ， 它 提供 了 集中 的 Web 单 点 登录 、 认 证 管理 、 基 于 策略 的 授权 、 身 份 联盟 和 审计 等 服务 。SAS 的 Web 应 用 可 以 部 署 在 CA Siteminder 管 理 的 环境 中 。 通 
过 配置 代理 Web 服 务 器 (可 以 是 SAS Web Server， 也 可 以 是 第 三 方 的 代理 服务 器 ) 和 SAS Web Application Server， 可 以 实现 SAS 与 CA SiteMinder 集 成 ， 从 而 实现 由 CA Sitminder 统 一 管理 的 包括 SAS 
Web 应 用 的 单 点 登录 、 认 证 管理 等 功能 的 企业 安全 系统 。 


(6) SAS 认 证 API 


SAS 认 证 API 提 供 了 将 用 户 开发 的 应 用 程序 与 SAS Web 应 用 程序 集成 的 方法 。 使 用 该 组 API 可 实现 从 已 经 验证 过 的 自 定义 应 用 程序 访问 SAs Web 应 用 程序 时 ， 不 必 交 互 式 地 输入 用 户 名 和 密码 。 
26.1.2 ”SAS Grid Manager 架 构 


SAS Grid Manager 是 由 多 台 机 器 组 成 的 网 络 计 算 环 境 。 可 将 其 中 的 一 台 机 器 作为 网 格 控 制 器 ， 其 他 机 器 作为 网 格 节点 ， 网 络 节 点 可 以 有 多 个 。 如 图 26.4 所 示 为 SAS Grid Manager 的 SAS 网 格 环境 架构 
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图 26.4 ”SAS 网 格 环境 架构 


SAS 客 户 端 可 将 SAS 作 业 和 任务 发 送 到 多 个 网 格 节点 进行 处 理 。 在 SAS 网 格 环 境 中 ， 需 注意 以 下 两 点 : 
` 在 网 格 控制 器 和 网 格 节点 上 需 安装 Platform LSF 软 件 、Base SAS、SAS/CONNECT， 以 及 在 该 节点 进行 分 析 和 计算 需要 的 其 他 SAS 软 件 。SAS 数 据 、SAS 作 业 部 署 目录 等 都 需要 存放 在 共享 文件 系统 中 。 
” 当 对 系统 的 SAS 服 务 器 层 有 高 的 可 用 性 要 求 ， 或 者 需要 具备 并 行 处 理 能 力 并 且 处 理 任务 之 间 具 备 较 好 的 还 辑 独立 性 时 ， 这 种 架构 是 很 实用 且 有 效 的 一 个 选择 。 
26.1.3 ”SAS 库 内 产品 架构 
SAs 库 内 产品 将 SAs 的 分 析 、 评 分 以 及 数据 质量 等 功能 放 在 第 三 方 数据 库 系统 中 运行 ， 可 避免 数据 在 网 络 上 迁移 ， 从 而 提高 性 能 和 安全 性 。 其 主要 产品 包括 : SAS 分 析 加 速 器 (SAS Analytics 


Accelerator) 、SAS 评 分 加 速 器 (SAS Scoring Accelerator) 、SAS 数 据 质量 加 速 器 (SAS Data Quality Accelerator) 和 SAS 代 码 加 速 器 (SAS Code Accelerator) 等 。 这 些 产品 的 架构 相同 ， 如 图 26.5 
所 示 。 














图 26.5 SAS 库 内 产品 架构 


该 架构 中 的 元 数据 层 、 计 算 层 和 中 间 层 与 SAS 智 能 分 析 平 台 没有 差别 。 主 要 差异 在 于 ， 该 架构 会 在 第 三 方 的 数据 库 系统 中 安装 SAS 库 内 分 析 产 品 组 件 。Base SAS 软 件 或 SAS Workspace Server 等 并 不 承 
担 真正 的 分 析 任 务 ， 而 是 将 分 析 任 务 转换 成 该 数据 库 系统 可 识别 的 语句 ， 并 发 送 到 数据 库 中 执行 。 


如 果 数 据 已 经 存在 于 第 三 方 数据 库 系统 中 ， 想 充分 利用 这 些 数据 库 系统 的 计算 和 存储 能 力 ， 减 少数 据 的 传输 开销 ， 则 可 以 考虑 SAS 库 内 产品 架构 。 
26.1.4 ” ”SAS 内存 分 析 产 品 架 构 


SAS Visual Analytics、SAS Visual Statistics、SAS In-Memory Statistics for Hadoop、SAS High-Performance Analytics 等 SAS 产 品 或 解决 方案 都 是 基于 SAS 的 内 存 分 析 技 术 。 

SAS 内 存 分 析 分 为 非 分 布 式 模式 和 分 布 式 模式 。 根 据 计 算 发 生 的 位 置 与 数据 存储 的 机 器 是 否 相 同 ， 分 布 式 模式 在 架构 上 又 分 为 Co-located 模 式 和 SAS RACK 选 项 。 

在 期 望 获得 高 性 能 时 ， 建 议 采 用 本 架构 。 具 体 而 言 ， 当 系统 需要 处 理 大 数据 时 ， 或 者 运算 量 庞大 时 ， 例 如 对 大 型 的 优化 问题 求解 ， 建 议 采 用 本 架构 的 分 布 式 模式 。 对 于 小 规模 数据 或 运算 量 ， 如 果 想 得 
到 较 高 的 性 能 ， 例 如 较 短 的 数据 分 析 时 间或 较 大 的 并 发 用 户 数量 ， 也 可 以 考虑 非 分 布 式 (Non-distributed) 模式 。 


1. 非 分 布 式 (Non-distributed) 模式 


无 论 是 非 分 布 式 还 是 分 布 式 部 署 架 构 ， 其 中 的 客户 端 、 元 数据 层 、 计 算 层 及 中 间 层 与 传统 的 SAS Intelligence Platform 部 署 架 构 相 同 。 在 非 分 布 式 模式 下 ， 同 一 个 分 析 任 务 只 在 一 台 SAS 服 务 器 上 进 
行 。 在 传统 的 SAS 产 品 中 SAS 分 析 处 理 任务 大 多 是 单线 程 执行 的 ， 不 过 ， 在 SAS 内 存 分 析 产 品 中 启用 了 多 线程 模式 ， 这 样 就 可 以 同时 利用 SAS 服 务 器 所 在 机 器 上 的 多 个 CPU 进 行 分 析 处 理 了 ， 从 而 极 大 地 减少 
了 运行 时 间 。 


2. 分 布 式 (Distributed) Co-located 模 式 


SAs 内 存 分 析 产 品 的 分 布 式 部 署 更 为 常用 ， 尤 其 是 在 分 布 式 人 存储 (如 Hadoop) 越 来 越 成 为 主要 趋势 的 现今 。 在 分 布 式 部 署 中 ，SAS 计 算 服 务 器 会 将 分 析 处 理 指令 提交 到 高 性 能 分 析 集 群 ， 然 后 由 高 性 能 
分 析 集 群 的 多 台 机 器 并 行 执行 。 


对 于 分 布 式 存储 的 数据 ，SAS 内 存 分 析 产 品 可 以 利用 其 所 在 的 机 器 进行 分 析 处 理 ， 即 数据 所 在 的 机 器 充当 高 性 能 分 析 集 群 的 角色 ， 如 图 26.6 所 示 ， 这 种 模式 称 为 Co-located 模 式 。 当 用 户 通 过 Base SAS 
或 SAS Workspace Server 等 计算 服务 器 提交 任务 时 ，SAS 首 先 将 数据 从 所 在 的 机 器 存储 并 行 加 载 到 各 自 的 内 存 中 ， 然 后 由 该 机 器 的 CPU 进行 并 行 分 析 处 理 。 各 机 器 节点 之 间 使 用 MPI (Message Passing 
Interface， 消 息 传递 接口 ) 进行 通信 。 
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图 26.6 SAS 内 存 分 析 分 布 式 Co-located 模 式 
3.SAS RACK 选 项 


启用 SAS RACK 选 项 后 会 使 用 独立 的 高 性 能 分 析 集群 ， 如 图 26.7 所 示 。 当 用 户 通过 Base SAs 或 计算 服务 器 提交 分 析 任务 时 ， 数 据 会 从 所 在 的 数据 存储 集群 环境 中 通过 SAs Embedded Process 组 件 并 行 
加 载 到 另外 一 个 独立 的 高 性 能 分 析 集 群 的 机 器 (或 节点 ) 的 内 存 中 ， 分 析 任 务 由 这 些 机 器 的 硬件 资源 完成 。 与 分 布 式 模式 Co-located 相 同 ， 其 各 高 性 能 分 析 集群 节点 之 间 也 使 用 MPI 进 行 通信 。 





图 26.7 SAS 内 存 分 析 SAS RACK 选 项 


这 种 架构 避免 了 SAS 分 析 任 务 与 数据 存储 业务 之 间 竞 争 资 源 ， 但 是 要 求 配置 额外 的 硬件 ， 此 外 ， 在 数据 存储 集群 和 SAS 高 性 能 分 析 集 群 之 间 还 要 具有 最 大 的 网 络 带 完 。 如 果 数 据 存储 集群 的 工作 负荷 已 经 
很 大 ， 或 者 数据 存储 集群 需要 向 多 个 数据 分 析 应 用 提供 数据 ， 那 么 这 种 架构 是 一 个 理想 的 选择 。 


26.1.5 ”SAS 部 署 在 高 可 用 集群 中 的 架构 


当 对 应 用 的 可 用 性 有 较 高 要 求 时 ， 除 了 前 面 讨论 的 SAs 元 数据 集群 、 计 算 服务 器 的 负载 均衡 、SAs Web Application Server 集 群 和 SAS Grid Manager 等 架构 外 ， 还 可 以 考虑 将 SAS 部 署 在 高 可 用 集群 


高 可 用 集群 是 指 将 高 可 用 性 软件 安装 在 多 台 计 算 机 上 ， 并 通过 适当 的 配置 将 这 些 计算 机 组 建成 一 个 集群 ， 该 集群 提供 对 应 用 程序 或 服务 的 保护 以 获得 高 可 用 性 ， 是 独立 于 具体 的 SAS 技 术 的 架构 。 通 过 
适当 的 配置 ， 可 以 将 SAS 应 用 部 署 在 高 可 用 集群 中 ， 以 便 对 SAS 应 用 中 的 关键 服务 器 提供 故障 转移 保护 。 关 于 SAS 高 可 用 集群 更 为 详细 的 信息 请 参考 本 书 第 28.2.1 节 。 


图 26.8 给 出 了 将 SAs 组 件 部 署 在 高 可 用 集群 中 的 架构 示 
该 架构 有 如 下 特点 : 
. 高 可 用 软件 安装 了 在 所 有 节点 上 ， 并 将 这 些 节点 配置 为 高 可 用 集群 。 


. SAS 组 件 安装 在 高 可 用 集群 的 节点 上 。 为 了 保持 SAS 配 置 同步 ，SAS 配 置 文件 需要 配置 在 两 台 机 器 可 访问 (不 必 同 时 访问 ) 的 共享 存储 中 。 如 果 各 节点 操作 系统 为 UNIX，SAS 可 执行 文件 也 可 以 同时 安 
装 在 共享 存储 中 。 


需要 配置 企业 DNS 或 使 用 F5 等 相应 功能 的 硬件 设备 ， 以 实现 在 故障 转移 时 IP 地 址 或 逻辑 机 器 名 的 漂移 。 
` 为 了 让 两 节点 的 高 可 用 集群 正常 工作 ， 还 需要 配置 仲裁 设备 。 根 据 不 同 的 高 可 用 软件 ， 仲 裁 设备 可 以 是 共享 磁盘 分 区 或 共享 文件 系统 。 


" 有 些 高 可 用 集群 还 要 求 配置 隔离 设备 或 隔离 软件 。 当 提供 服务 的 节点 发 生 故 障 时 ， 隔 离 设 备 或 软件 可 将 发 生 故 障 的 节点 与 其 他 依赖 的 资源 隔离 





图 26.8 ”SAS 部 署 在 高 可 用 集群 中 


请 参考 对 应 的 高 可 用 软件 安装 和 配置 文档 以 及 SAs 的 相关 文档 获取 更 为 详细 的 配置 信息 。 


26.2 ”SAs 应 用 的 MO 系统 规划 
在 对 SAs 应 用 的 架构 进行 规划 时 ， 底 层 的 硬件 规划 非常 重要 ， 其 中 ， 存 储 和 MO 的 规划 又 尤为 重要 。 本 节 提 供 了 SAs 常 规 工 作 负 载 的 MO 特性 ， 以 及 设置 SAs 应 用 所 在 环境 文件 系统 的 通用 指南 。 


26.2.1 SAS 应 用 的 MO 特性 


理解 SAs 应 用 和 不 同 工 作 任务 与 MO 系统 交互 的 特性 是 规划 SAs 环 境 存 储 架构 的 关键 步 又。 


SAs 环 境 通 常 由 执行 多 并 发 SAs 进 程 的 用 户 工作 负载 组 成 ， 这 些 并 发 进程 可 以 是 批 处 理 的 作业 或 会 话 ， 也 可 以 是 交互 式 的 作业 或 会 话 。 这 些 SAs 进 程 通常 涉及 大 量 的 数据 ， 其 处 理 和 访问 模式 与 在 线 交 易 
处 理 系 统 非常 不 同 。 一 般 来 说 ，SAS 会 话 执行 大 量 的 顺序 读 写 操作 ， 不 过 ， 有 时 SAS 应 用 程序 也 执行 一 定量 的 随机 数据 读 写 。 


然而 ， 并 发 的 SAs 会 话 访问 同一 数据 文件 时 ， 尽 管 单个 会 话 是 顺序 访问 的 ， 但 是 在 操作 系统 看 来 ， 所 有 SAs 会 话 的 访问 都 可 能 是 随机 的 。 依 赖 于 并 发 会 话 数 ， 按 照 随机 访问 调节 MO 系统 比 按 顺 序 访问 调 
节 I/O 系 统 更 有 效 ， 比 如 ， 大 量 并 发 进程 通常 会 减少 文件 缓存 效率 


SAS 应 用 程序 和 工作 负载 的 特性 总 结 如 下 : 


. SAS 应 用 会 创建 许多 临时 文件 。 存 储 子 系统 和 操作 系统 需要 支持 创建 许多 小 的 临时 文件 和 大 的 顺序 访问 的 临时 文件 。 在 一 个 作业 中 ， 这 些 文件 在 被 创建 后 ， 可 能 会 有 多 次 更 新 或 重 命名 ， 并 且 在 作业 
运行 结束 前 会 被 删除 。 文 件 的 大 小 范围 可 能 从 非常 小 (大约 1IKB) 到 非常 大 (超过 1TB 的 大 小 ) 。 临 时 文件 的 大 小 在 创建 时 是 未 知 的 。 


" SAS I/O 不 使 用 预 分 配 存 储 。 不 同 于 传统 RDBMS 应 用 所 使 用 的 预 分 配 策略 ，SAS 应 用 程序 必须 创建 自己 的 扩展 。 在 基于 扩展 卷 的 文件 系统 中 ，SAS 创 建文 件 时 会 分 配 少 量 的 存储 ， 但 随 着 文件 增 
长 ，SAS 需 要 新 的 存储 空间 。 可 能 的 解决 办 法 是 使 用 允许 配置 大 的 国定 扩展 的 文件 系统 。 然 而 ， 从 未 使 用 空间 来 看 ， 这 可 能 是 浪费 的 ， 但 是 当 处 理 大 的 对 象 时 ， 浪 费 率 应 该 很 小 。 


SAS 为 其 数据 存储 〈SAS 数 据 集 、 索 引 ) 创建 了 标准 的 操作 系统 文件 。 黑 认 情况 下 ，SAS 访 问 文件 时 使 用 文件 锁 。 对 于 有 些 文件 系统 ， 尤 其 是 NFS， 使 用 文件 锁 会 禁用 缓存 、 预 读 和 延迟 写 。 


. SAS 执 行 写 入 操作 时 ， 每 个 SAS 会 话 有 一 个 单独 的 写 线程 。SAS 执 行 读 取 操作 时 ， 有 些 SAS 任 务 支 持 多 线程 并 且 可 启动 多 个 读 线 程 。 


26.2.2 SAS 文件 系统 考虑 


本 节 提 供 了 对 基础 的 SAs 应 用 程序 要 求 的 文件 系统 进行 设置 的 通用 指南 。 需 要 阅 明 的 是 ， 各 种 文件 系统 的 配置 也 依赖 于 该 SAs 应 用 所 实现 的 具体 工作 内 容 和 应 用 底层 的 数据 模型 。 


针对 上 述 SAS 1/O 特 性 ， 通 常 推荐 配置 最 少 两 个 存储 空间 来 支持 SAS: 一 个 存储 永久 SAS 数 据 文件 ， 一 个 存储 临时 SAS 数 据 文件 (SAS WORK 和 UTILLOC) 。 默 认 情 况 下 SAs WORK 和 UTILLOC 处 于 同 
一 文件 系统 ， 也 可 以 将 它们 分 别 配置 在 不 同文 件 系 统 中 。 如 果 预 算 许可 ， 可 将 SAS WORK 和 UTILLOC 置 于 有 足够 带宽 和 可 高 速 读 写 的 高 性 能 存储 中 ， 这 将 有 助 于 提高 系统 的 性 能 。 然 而 ， 对 大 多 数 现代 存储 
系统 来 说 ， 这 些 文件 系统 通常 会 共享 底层 物理 资源 。 在 现在 的 存储 系统 中 ， 大 多 数 磁盘 存储 阵列 会 配置 为 “全 条 带 化 ”系统 ， 逻 辑 单 元 (LUN) 则 会 跨 存储 子 系统 中 的 大 多 数 或 全 部 磁盘 进行 条 融化 。 


SAS 系 统管 理 员 应 该 清楚 地 知道 SAS 应 用 程序 的 工作 负载 和 1/O 特 征 。 当 SAS 应 用 程序 与 其 他 非 SAS 应 用 程序 共享 物理 环境 时 ， 必 须 持续 监控 以 确保 SAS 应 用 程序 的 文件 系统 资源 不 被 其 他 应 用 程序 争夺 。 


针对 SAS 应 用 中 不 同 的 数据 和 文件 ， 可 以 考虑 如 下 建议 : 
1. 根 操作 系统 

根 操作 系统 是 存放 操作 系统 和 交换 文件 的 位 置 。 建 议 使 用 RAID1 (镜像 ) 保证 该 关键 文件 系统 的 高 可 用 性 。 
2.SAS 软 件 可 执行 文件 


可 存放 在 根 操作 系统 所 在 的 文件 系统 上 ， 建 议 使 用 RAID1。 
3. 永 久 SAS 数 据 


永久 SAS 数 据 通 常 指 SAS 应 用 中 的 永久 SAS 数 据 文件 和 原始 的 输入 数据 源 文件 ， 是 SAS 数 据 集 市 、 数 据 仓库 的 重要 组 成 部 分 。 存 放 这 些 文件 的 存储 位 置 在 SAS 作 业 开 始 时 ， 会 是 繁重 的 “ 读 ′” 区 域 ， 在 作 
业 结 束 写 入 结果 文件 ， 或 刷新 数据 集 市 或 数据 仓库 时 又 会 是 繁重 的 “ 写 ” 区 域 。 


大 多 数 SAS 用 户 希 望 将 永久 SAS 数 据 放 置 在 元 余 文 件 系统 中 ， 以 保证 SAS 数 据 的 可 用 性 。RAID10 通 常会 提供 最 好 的 元 余 和 性 能 ， 但 是 镜像 要 求 使 用 更 多 的 存储 空间 来 支持 相同 的 文件 空间 。 大 多 数 存 储 
管理 员 会 使 用 RAID5 降 低 额 外 的 空间 成 本 ， 同 时 保持 校 验 和 提供 的 元 余 。 


4.SAS WORK 和 UTILLOC 


SAS 会 话 的 临时 工作 区 。 在 该 文件 系统 中 可 能 会 有 繁重 的 顺序 读 写 活动 。 依 赖 于 SAS 任 务 ， 通 常 可 能 会 读 写 许多 小 文件 或 几 个 大 文件 。 写 入 SAS WORK 中 的 文件 仅 在 SAS 会 话 期 间 可 用 ， 当 SAS 会 话 正 常 
终止 时 会 被 擦 除 。 主 要 的 I/O 活 动 可 能 都 发 生 在 该 文件 系统 中 。UTILLOC 是 指定 用 多 线程 的 应 用 程序 来 存储 实用 文件 的 文件 系统 ， 默 认为 SAs WORK。 这 些 实用 文件 相关 的 MO 压力 可 通过 指定 UTILLOC 参 数 
将 实用 文件 的 位 置 指定 到 不 同 的 文件 系统 来 缓解 。 


该 文件 系统 中 创建 的 文件 是 临时 的 ， 而 且 在 SAS 会 话 运行 结束 后 也 不 需要 再 次 访问 ， 可 以 配置 为 RAID0。 但 是 ， 现 在 的 客户 也 会 要 求 SAS WORK 文 件 系 统 的 高 可 用 性 ， 这 时 可 考虑 使 用 RAID10。 同 
时 ，RAID5 也 是 非常 常用 的 配置 。 


信 注 意 上 述 RAID 配 置 在 闪存 (Flash) 阵列 中 可 能 会 不 同 。 本 章 不 讨论 闪存 阵列 的 配置 。 


在 创建 标准 操作 系统 文件 系统 时 ， 需 要 选择 要 运行 的 SAs 应 用 程序 最 适合 的 文件 系统 。 如 果 应 用 程序 工作 负载 会 有 繁重 的 顺序 写 活动 ， 通 常 不 推荐 使 用 NFS 文 件 系统 。 因 为 NFs 不 支持 文件 锁 。 此 外 ， 
当 跨 网 络 访问 文件 时 ， 网 络 可 能 影响 SAS 性 能 。 如 果 SAS 应 用 程序 工作 负载 以 繁重 的 顺序 读 写 为 主 时 ， 则 可 根据 操作 系统 选择 如 下 文件 系统 : 


" Linux RHEL - XFS 
* Windows - NTFS 
,ATR =]ES2 
. Solaris 10 -JES 
. HP-UX - JFS 
在 设置 文件 系统 时 ， 确 保 启 用 预 读 (Read-Ahead) 和 延迟 写 (Write-Behinds/Write-Through) 。 


如 果 在 服务 器 集群 上 运行 SAS， 例 如 SAs 网 格 环境 中 ， 则 需要 确定 集群 或 网 格 中 的 各 个 节点 是 否 需要 共享 文件 系统 。 如 果 需 要 ， 则 可 使 用 集群 文件 系统 (Clustered File System) ， 以 达到 共享 存储 和 
集群 中 每 个 节点 之 间 的 最 大 MO 带宽 。 
26.3 “本章 小 结 


不 同 SAs 产 品 或 解决 方案 的 架构 对 底层 的 MO 系统 的 要 求 可 能 会 有 所 不 同 。 产 生 影 响 的 因素 包括 : 是 否 需 要 配置 高 可 用 或 负载 均衡 集群 ， 产 品 中 是 否 包 括 SAS 网 格 管理 器 、SAS 库 内 分 析 产 品 、 内 存 分 析 
产品 等 。SAS 方 案 架 构 师 和 相关 的 |T 架 构 师 在 规划 SAS 应 用 时 需要 对 这 些 因 素 进 行 考虑 并 细致 规划 。 


第 27 草 ”SAS 智能 平台 安全 管理 
SAS 智 能 平台 提供 了 包括 认证 、 授 权 、 加 密 、 审 计 等 在 内 的 安全 性 功能 。 该 智能 分 析 平 台 可 以 与 主机 环境 、Web 领 域 (realm) 、 第 三 方 数据 库 系统 的 用 户 管理 功能 协作 ， 提 供 集 成 的 安全 性 身份 认证 


和 数据 访问 ， 并 且 可 以 与 第 三 方 安全 性 产品 集成 ， 以 提供 安全 保障 功能 。 本 章 从 SAS 身 份 (用 户 和 组 ) 开始 ， 介 绍 SAS 智 能 平台 对 用 户 进行 认证 和 权限 管理 的 功能 。 此 外 ， 还 介绍 如 何 对 传输 中 (in 
transit) 的 数据 和 静态 (at rest) 数据 进行 加 密 ， 以 及 如 何 进行 审计 等 。 


27.1 身份 标识 


为 了 保证 访问 的 唯一 性 并 追踪 用 户 行 为 ， 系 统 必 须知 道 是 谁 在 做 出 请 求 。 在 SAS 智 能 平台 中 ， 对 于 每 个 注册 过 的 用 户 ， 至 少 有 一 个 用 户 ID (主机 、Windows 活 动 目录 或 LDAP 中 的 用 户 ID) 被 存储 在 
SAS 元 数据 中 ， 即 在 SAS 元 数据 中 会 存储 每 个 用 户 的 外 部 账号 ID。SAS 使 用 这 些 账号 1D 建 立 唯 一 的 SAS 身 份 。 所 有 的 用 户 成 员 关 系 、 权 限 (permission) 和 权力 (capability) 都 与 用 户 的 SAs 身 份 完 全 绑 


宙 


SAS Management Console 的 插件 “用 户 管理 器 ”窗口 显示 了 SAS 环 境 中 的 所 有 SAS 用 户 、 


可 以 通过 “用 户 管理 器 ”窗口 中 的 复 选 框 
过 浮动 菜单 新 建 用户 、 


中 给 出 了 通 


27.1.1 用 户 


用 户 (User) 是 个 


人 文件 夹 。 


组 或 角色 的 示例 。 


人 或 服务 的 SAS 身 份 (ldentity) 


“显示 用 户 ”、 


。 推 荐 为 每 个 使 用 SAS 环 境 的 人 创建 单独 的 SAS 身 份 ， 
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图 27.1 用 户 管理 器 
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| 插件 | 安 件 夹 | 搜索 


人 Foundation 


二 | SS Managenent Cornsole 


9 硬 环境 管理 


通常 ， 建 立 SAs 身 人 


人 搜索 马 ) 


“显示 角色 ”来 选择 列 出 或 不 列 出 相应 的 类 另 


组 和 角色 ， 如 图 27.1 所 示 。 





加 显示 用 户 人 ) 加 显示 组 低 ) 芭 | 显示 角色 人) 


J。 此 外 ， 管 理 〈 添 加 、 删 除 、 编 辑 ) 用 户 、 


组 或 角色 也 是 在 该 窗口 完成 的 。 图 27.2 


这 样 就 能 够 在 元 数据 层 为 每 个 用 户 设置 单独 的 访问 权限 ， 同 时 也 可 以 为 每 个 用 户 建立 相应 的 个 

















所 有 能 况 访 问 Wetadata Server 的 用 户 。 
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执行 元 数据 管理 任务 的 用 户 。 
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图 27.2 ”新 建 用 户 、 组 或 角色 


需要 通过 以 下 两 个 域 中 的 身份 互相 配合 来 完成 : 


` 认证 提供 方 所 提供 的 账号 ID。 


说 明 


部 证 成 员 创 建 和 用 直人 545... 
支持 在 0LAF 分 析 器 中 查 .，. 
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. 元 数据 中 的 定义 ， 该 定义 中 包括 了 上 述 账 号 ID。 
根据 认证 提供 方 的 不 同 ，SAS 用 户 分 为 常规 SAS 用 户 (也 称 为 SAs 用 户 ) 和 内 部 账号 ， 其 认证 分 别 由 外 部 认证 系统 和 SAS 元 数据 提供 。 
1.SAS 用 户 


在 初始 部 署 完毕 的 SAs 环 境 中 ，SAs 管 理 员 (组 ) 拥有 用 户 管理 角色 ,该 组 的 成 员 可 执行 大 部 分 的 用 户 管理 任务 。SAS 管 理 员 可 以 在 SAS Management Console 中 通过 用 户 管理 器 插件 创建 SAS 用 户 ， 
如 图 27.1 所 示 。 


创建 SAs 用 户 时 通常 需要 用 到 外 部 认证 系统 中 的 账号 ID。 在 最 简单 的 配置 中 ， 每 个 SAs 用 户 需要 在 元 数据 服务 器 主机 上 拥有 已 知 的 账号 。 当 元 数据 服务 器 操作 系统 为 Windows 时 ， 用 户 通常 在 活动 目录 
(Active Directory，AD) 中 拥有 账号 ; 如果 操 作 系统 为 UNIX， 用 户 通常 有 UNIX 账 号 。 可 以 基于 这 些 账号 创建 SAs 用 户 。 此 外 ， 还 可 以 配置 并 创建 使 用 LDAP 账 号 的 SAs 用 户 等 。 


在 “新 建 用 户 ”对话 框 的 “账户 ”选项 卡 中 ， 需 要 将 外 部 系统 中 的 账号 和 所 创建 的 用 户 绑 定 。 图 27.3 在 新 建 用 户 sasabc 时 为 其 提供 在 Windows 域 corpdomain 中 的 账号 。 
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为 “新 建 用 户 ” 定 区 的 登录 
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图 27.3 用 户外 部 账号 
在 “新 建 用 户 ” 对 话 框 的 “常规 ”选项 卡 中 ， 还 可 添加 该 用 户 的 联系 信息 ， 例 如 电子 邮件 、 电 话 、 地 址 ， 这 些 信 息 可 用 于 配置 邮件 通知 等 功能 。 


用 户 的 密码 在 认证 提供 方 设 置 ， 通 常 在 SAs 元 数据 中 不 保存 密码 。 比 如 ， 对 于 图 27.3 中 建立 的 用 户 sasabc， 当 其 登录 时 ， 会 通过 元 数据 所 在 主机 到 定义 该 用 户 时 指定 的 Windows 域 中 去 认证 ， 在 SAS 元 
数据 中 不 需要 保存 密码 。 但 是 ， 如 果 要 对 某 个 服务 器 进行 无 颖 访问 (不 需要 交互 式 地 提供 用 户 名 和 密码 ) ， 而 且 该 服务 器 要 求 的 凭证 (Credential) 与 用 户 初 始 提 交 的 凭证 不 同 ， 则 需要 在 该 用 户 的 SAs 元 
数据 中 保存 密码 。 例 如 ， 当 访问 第 三 方 数据 库 服 务 器 或 在 一 个 多 平台 环境 中 访问 标准 工作 区 服务 器 时 ， 就 需要 在 用 户 的 账户 中 添加 对 应 服务 器 合适 的 用 户 名 和 密码 。 否 则 ， 一 些 应 用 程序 可 能 会 给 出 提示 对 
话 框 ， 要 求 输入 用 户 名 和 密码 。 


2. 内 部 账号 


内 部 账号 的 认证 提供 方 为 SAS 元 数据 服务 器 。 内 部 账号 仅 存 在 于 SAS 元 数据 中 ， 其 形式 为 hame@saspw， 常 用 于 元 数据 管理 和 运行 一 些 服务 。 例 如 ， 内 部 账号 “SAS 管 理 员 ”的 形式 为 
sasadm@saspw，“SAS 信 任用 户 ”的 形式 为 sastrust@saspw。 


内 部 账号 通常 是 通过 SAS Management Console 的 用 户 管理 器 创建 的 ， 其 创建 方式 与 创建 常规 SAS 用 户 类 似 。 图 27.4 为 SAS 管 理 员 的 账号 信息 。 注 意 ， 在 SAS 9.4 中 ，SAS 管 理 员 还 用 于 对 SAS Web 
Infrastructure Platform 数据 库 中 的 数据 进行 访问 ， 所 以 其 账号 信息 中 还 会 包括 访问 该 数据 库 的 凭证 。 


内 部 帐户 : sasadnBsaspw 





图 27.4 SAS 9.4 中 的 SAS 管 理 员 账户 
内 部 账号 的 使 用 存在 一 些 限制 。 例 如 ， 仅 有 内 部 账号 的 用 户 (可 为 一 个 用 户 设置 多 个 账号 ) 不 能 用 于 访问 SAS 工 作 区 服务 器 ， 所 以 SAS 内 部 账号 通常 不 用 作 常 规 SAS 用 户 。 
内 部 账号 的 定义 中 包括 密码 信息 。 有 些 账 号 的 密码 还 被 存储 在 一 些 配 置 文件 中 ， 例 如 SAS 管 理 员 和 SAS 信 任用 户 的 密码 。 


在 SAs 的 默认 配置 中 ， 内 部 账号 在 登录 时 如 果 连 续 3 次 输入 错误 密码 会 导致 该 账号 被 锁 住 一 个 小 时 。 用 户 可 以 选择 等 待 一 个 小 时 后 再 使 用 该 内 部 账号 ， 或 者 解锁 该 账号 。 解 锁 内 部 账号 的 具体 步骤 请 参考 


SAS Intelligence Platform: Security Administration Guide。 


27.1.2 组 


组 (Group) 是 用 户 的 集合 ， 常 用 于 访问 控制 设置 并 简化 安全 管理 。 在 SAS 智 能 分 析 平 台 的 初始 配置 中 会 创建 一 些 预定 义 的 SAS 组 ， 如 SAS 管 理 员 组 、SAS 系 统 服务 组 、SASUSERS 组 、PUBLIC 组 等 。 这 
些 组 的 特性 如 下 : 


. SAS 管 理 员 组 是 元 数据 管理 员 的 标准 组 。 在 标准 配置 中 ， 该 组 为 其 成 员 提 供 了 大 多 数 管 理性 的 权力 。 
. SAS 系 统 服务 组 使 其 成 员 (SAS 信 任用 户 默认 为 其 成 员 ) 能 够 列 出 并 使 用 SAS 服 务 器 、OLAP 立 方 体 以 及 其 他 SAS 对 象 。 
. SASUSERS 组 自动 包括 拥有 个 人 身份 的 用 户 ， 即 在 元 数据 中 定义 过 的 用 户 。 
. PUBLIC 组 自动 包括 能 够 访问 元 数据 服务 器 的 所 有 人 ， 不 论 是 直接 访问 的 还 是 通过 受信 关系 访问 的 。 没 有 个 人 身份 的 用 户 〈 即 未 在 元 数据 定义 的 用 户 ) 仅仅 有 PUBLIC 组 身份 。 


大 部 分 预定 义 的 组 有 的 太 泛 (例如 SASUSERS) ， 有 的 拥有 太 高 的 权限 (SAs 管 理 员 ) ， 所 以 经 常 要 根据 实际 业务 需要 创建 自 定义 的 组 。 与 创建 用 户 类 似 ， 组 通常 也 是 通过 SAs Management Console 
的 用 户 管理 器 来 创建 的 〈 如 图 27.2 所 示 ) 。 注 意 ， 组 使 用 的 账号 不 能 为 内 部 账号 。 一 般 情 况 下 ， 大 多 数组 不 包括 登录 信息 ， 除 非 希望 通过 组 来 创建 多 个 用 户 的 共享 凭证 


定义 SAS 组 常用 于 如 下 目的 : 


* 管理 不 同 访问 的 分 类 权限 。 可 以 创建 组 (例如 为 每 个 业务 单元 或 职责 功能 域 的 用 户 创建 一 个 组 ) ， 为 该 组 设置 访问 权限 和 角色 (角色 概念 在 下 一 小 节 中 介绍 ) ， 再 将 具有 相同 安全 设置 需求 的 用 户 加 
入 该 组 中 。 该 组 中 的 所 有 成 员 具 有 为 该 组 设置 的 访问 权限 以 及 该 组 所 属 角色 所 具有 的 能 力 。 这 比 为 多 个 用 户 分 别 进行 置 更 简洁 有 效 。 


.多 个 用 户 使 用 共享 赁 证。 这 时 通常 为 该 组 设置 外 部 账号 ID 和 密码 ， 以 使 该 组 的 所 有 用 户 都 可 以 使 用 该 凭证 访问 SAS 服 务 器 或 第 三 方 数据 库 。 


27.1.3 角色 


SAS 通 过 角色 (Role) 来 管理 用 户 是 否 可 以 使 用 SAs 应 用 程序 的 某 些 功能 ， 例 如 SAs 应 用 程序 的 菜单 项 功能 等 。 基 于 角色 管理 的 应 用 程序 之 功能 称 为 “权力 ” (Capability) 。 当 某 个 用 户 属于 某 个 角色 


时 ， 该 用 户 就 拥有 该 角色 的 权力 。 角 色 确 定 当 用 户 使 用 应 用 程序 时 可 以 看 到 和 使 用 哪些 用 户 界面 元 素 ， 例 如 菜单 和 插件 。 


每 个 支持 角色 的 SAS 应 用 程序 都 提供 了 预定 义 角色 ， 每 个 预定 义 角色 都 有 唯一 的 初始 权力 集合 。 角 色 提 供 的 权力 反映 了 该 角色 成 员 的 活动 和 职责 。 同 样 ， 可 以 在 SAS Management Console 中 ， 通 过 用 
户 管理 器 添加 、 删 除 角 色 ， 同 时 ， 它 还 具有 查看 、 编 辑 角 色 的 权力 。 以 预定 义 角色 “Enterprise Guide: 分 析 ” 为 例 。 在 “用 户 管理 器 ”窗口 选择 角色 “Enterprise Guide: 分 析 ”， 右 键 选择 “属性 ”。 
在 打开 的 ““Enterprise Guide: 分 析 ′ 属性” 对话 框 中 ， 选 择 选项 卡 “ 权 力 ”， 即 为 以 树 状 结构 显示 该 角色 的 权力 ， 如 图 27.5 所 示 。 义 选 的 项 表示 属于 该 角色 的 成 员 拥 有 对 应 的 权力 ， 未 勾 选 表示 不 拥 
有 。 


可 以 将 用 户 添 加 为 某 个 或 某 些 角色 的 成 员 ， 也 可 以 通过 改变 用 户 所 属 角色 的 权力 来 设置 或 调整 用 户 权力 。 例 如 ， 通 过 增加 或 清除 所 属 角色 的 初始 权力 ， 或 者 创建 新 角色 并 为 该 角色 提供 权力 组 合 ， 然 后 
将 用 户 添加 为 该 角色 成 员 等 方法 来 设置 或 调整 用 户 权力 。 权 力 是 累加 的 ， 用 户 所 拥有 的 权力 是 其 所 属 角色 的 所 有 权力 。 


注意 ， 设 置 角色 和 组 的 目的 并 不 相同 。 组 用 于 管理 访问 权限 ， 而 角色 用 于 管理 权力 ， 具 有 某 种 权力 并 不 表示 符合 权限 要 求 。 例 如 ， 可 以 看 到 并 使 用 某 菜单 (通过 角色 控制 ) 并 不 意味 着 使 用 该 菜单 可 以 
查看 报表 或 数据 (通过 权限 控制 ) 。 


| 常规 | 成员 | 权力 


从 一 些 角 色 具 有 隐 式 权力 ， 请 条 说 “常规 ”选项 卡 中 的 说 明 。 
已 分 醒 的 权力 〈 军 - 衬 形 图 标 太 映 当前 的 选择 项 ， 并 可 用 于 更 织 这 些 选 择 项 。 ) 
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图 27.5 SAS 角色 和 权力 


27.2 认证 


认证 (Authentication) 是 用 户 向 系统 证 明 他 就 是 自己 所 声称 的 用 户 ( 即 被 许可 的 用 户 ) 的 过 程 。 用 户 在 登录 SAS 智 能 分 析 平 台 访 问 SAS 服 务 器 和 第 三 方 数据 服务 器 时 ， 通 常 首先 需要 对 用 户 进行 身份 
认证 ， 并 在 访问 服务 器 时 使 用 相应 的 身份 信息 。SAS 提 供 了 多 种 身份 认证 机 制 ， 可 以 在 SAS 环 境 中 组 合 使 用 ， 以 满足 和 平衡 企业 对 于 安全 性 的 需求 ， 例 如 保护 个 人 身份 、 降 低 安 全 风险 、 提 供 统 一 的 用 户 体 
验 、 在 一 个 环境 中 提供 对 不 同系 统 的 访问 ， 以 及 和 各 种 通用 计算 环境 进行 集成 等 。 


27.2.1 ”认证 机 制 
SAS 支 持 多 种 认证 机 制 ， 根 据 认 证 提供 方 、 进 行 认证 的 方式 ， 以 及 要 访问 的 目标 服务 器 来 分 ， 包 括 SAS 内 部 认证 、 主 机 认证 、SAS 令 牌 认 证 、LDAP 集 成 认证 、 集 成 Windows 认 证 等 。 
1.SAS 内 部 认证 


SAS 内 部 认证 是 指 直 接 由 SAS 服 务 器 进行 验证 ， 而 不 需要 使 用 外 部 认证 提供 方 。 这 种 机 制 用 于 验证 ID 后 缀 为 @saspw 的 用 户 ， 即 内 部 账号 。 


该 认证 机 制 主 要 用 于 连接 到 元 数据 服务 器 ， 同 时 也 支持 直接 连接 OLAP 服 务 器 ,但 后 者 不 常见 。 


2. 主 机 认证 
主机 认证 (Host Authentication) 是 指 由 客户 端 提供 外 部 用 户 的 ID 和 密码 给 SAs 服 务 器 ，SAsS 服 务 器 将 该 凭证 传递 给 服务 器 所 在 的 主机 进行 认证 。 
该 认证 机 制 主要 用 于 直接 连接 到 SAS 元 数据 服务 器 、OLAP 服 务 器 ， 以 及 工作 区 服务 器 。 
3.SAS 令 牌 认证 
在 每 次 认证 时 ， 先 由 SAS 元 数据 服务 器 产生 身份 令 牌 ， 客 户 端 再 将 该 令 牌 发 送 到 目标 服务 器 进行 认证 。 该 方法 会 使 目标 服务 器 接受 连接 到 SAS 元 数据 服务 器 的 用 户 。 
该 认证 机 制 主要 用 于 用 户 已 经 连接 到 元 数据 服务 器 的 情况 下 ， 表 连接 存储 过 程 服务 器 、 共 享 池 工 作 区 服务 器 和 OLAP 服 务 器 。 也 可 以 将 标准 工作 区 服务 器 (区 别 于 共享 池 工 作 区 服务 器 ) 配置 为 使 用 SAS 
令 牌 认证 。 
4.LDAP 集 成 认证 
SAs 有 3 种 方式 使 用 LDAP 集 成 认证 。 
(1) 主机 使 用 LDAP 


SAS 服 务 器 主机 使 用 LDAP 提 供 方 作为 后 端 认 证 提供 方 ， 身 份 认 证 将 通过 元 数据 服务 器 主机 发 送 到 LDAP 提 供 方 。 从 SAS 服 务 器 的 角度 来 看 ， 该 方法 为 主机 认证 。 该 方法 要 求 SAS 服 务 器 主机 能 够 识别 
LDAP 提 供 方 。 


(2) 直接 LDAP 认 证 

通过 适当 的 配置 ， 使 元 数据 服务 器 能 够 直接 连接 到 其 主机 不 能 识别 的 LDAP 提 供 方 ， 并 将 认证 直接 交 给 其 完成 ， 而 不 需要 通过 元 数据 服务 器 主机 将 认证 过 程 传递 给 LDAP 提 供 方 。 
直接 LDAP 认 证 主要 用 于 连接 元 数据 服务 器 ， 以 及 从 数据 提供 方 到 OLAP 服 务 器 的 直接 连接 ， 但 是 不 支持 工作 区 服务 器 和 存储 过 程 服务 器 。 

(3) sasauth 使 用 LDAP ( 仅 用 于 当 SAs 服 务 器 部 署 于 UNIX 环 境 时 ) 


该 方法 用 于 认证 从 sasauth (UNIX 主 机 认证 模块 ) 到 LDAP 提 供 方 的 直接 连接 。 


5. 集 成 Windows 认 证 


集成 Windows 认 证 (Integrated Windows Authentication，IWA) 可 使 SAS 服 务 器 接受 已 经 成 功 认 证 到 Windows 系 统 的 用 户 ， 是 实现 SAS 系 统 单 点 登录 的 一 个 解决 方案 ， 适 用 于 Windows 桌 面 客 户 
端 ， 以 及 Windows 和 UNIX 上 的 SAs 服 务 器 。 可 用 于 连接 到 元 数据 服务 器 和 标准 工作 区 服务 器 ， 也 可 用 于 从 数据 提供 方 到 OLAP 服 务 器 的 直接 连接 。 此 外 ， 结 合 Web 认 证 ， 集 成 Windows 认 证 也 能 用 于 Web 
应 用 。IWA 也 是 主机 验证 的 一 种 形式 。 


为 了 对 在 UNIX 机 器 上 的 SAS 服 务 器 使 用 IWA， 必 须 安装 第 三 方 产品 Quest Authentication Services。 
6. 通 过 信任 方 和 信任 用 户 连 接 


信任 方 (Trusted Peer) 连接 使 元 数据 服务 器 接受 使 用 私有 协议 的 对 等 SAS 会 话 或 SAS 服 务 器 的 连接 。 该 机 制 使 SAS/CONNECT 服 务 器 能 够 访问 元 数据 服务 器 ， 使 批 处 理 进程 可 以 连接 到 元 数据 服务 
器 ， 而 且 在 元 数据 服务 器 集群 中 ， 该 机 制 提 供 了 对 集群 中 节点 之 间 的 通信 支持 。 


信任 用 户 (Trusted User) 连接 指 元 数据 服务 器 允许 特权 账号 代表 其 他 用 户 ， 即 信任 已 经 被 验证 了 的 用 户 。 该 机 制 用 于 从 Object Spawner、OLAP 服 务 器 、SAS Web 应 用 ， 以 及 报表 批 处 理 进程 等 连接 
到 元 数据 服务 器 。 


详情 请 参考 SAs Intelligence Platform: Security Administration Guide。 

7.Web 认 证 
元 数据 服务 器 接受 已 经 认证 到 Web 外 围 的 用 户 。Web 认 证 使 SAS 环 境 能 够 利用 Web 领 域 的 用 户 ， 而 且 还 能 实现 Web 领 域 的 单 点 登录 。 
该 认证 机 制 应 用 于 从 SAS Web Application Server 连 接 到 元 数据 服务 器 。 

8.SAsS 认 证 APl 


SAS 9.4 使 用 Central Authentication Service (CAS) 对 访问 SAS Web 应 用 程序 的 用 户 进行 认证 。SAS 提 供 了 一 组 基于 REST 软 件 架构 的 认证 API1， 它 通过 CAS 对 用 户 进行 认证 。 开 发 人 员 可 以 通过 调用 
这 些 AP| 来 进行 认证 ， 也 可 以 将 自 定义 的 应 用 程序 与 SAS Web 应 用 程序 相 集 成 ， 使 得 访问 SAs Web 应 用 程序 时 不 必 交 互 式 地 提供 用 户 名 和 密码 。 


27.2.2 ”凭证 管理 


在 SAS 环 境 中 ， 用 户 登 录 SAS 智 能 分 析 平 台 及 访问 SAS 服 务 器 和 第 三 方 数据 服务 器 时 ， 进 行 验证 时 使 用 的 用 户 ID 和 密码 ， 称 为 凭证 。 本 节 主 要 介绍 SAS 如 何 进 行 凭证 管理 。 学 习 和 理解 本 节 内 容 能 帮助 
SAS 管 理 员 根据 用 户 对 资源 (主要 是 SAS 服 务 器 和 数据 服务 器 ) 的 访问 要 求 对 用 户 和 组 进行 登录 ， 以 及 对 上 述 服务 器 的 认证 域 等 进行 设置 和 管理 。 


1. 登 录 


登录 (Login) 在 此 处 是 名 词 ， 指 用 户 或 组 的 外 部 账号 信息 。 每 个 用 户 在 建立 其 SAs 身 份 时 必须 提供 登录 。 每 个 登录 包括 一 个 用 户 I1D， 但 不 必 包 括 密码 。 例 如 “SAs 演 示 用 户 ” 的 登录 如 图 27.6 所 示 。 








图 27.6 “SAS 演示 用 户 ” 的 登录 


用 户 可 能 有 额外 的 登录 以 提供 对 其 他 系统 的 访问 。 例 如 ， 当 用 户 需要 访问 Oracle 数 据 库 时 ， 则 该 用 户 可 能 包括 额外 的 登录 ， 如 图 27.7 所 示 。 


注意 ， 图 27.7 中 两 个 登录 的 身份 验证 域 是 不 同 的 。 关 于 身份 验证 域 ， 下 一 小 节 会 专门 介绍 。 
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图 27.7 可 访问 Oracle 的 用 户 的 登录 


组 常用 于 为 属于 该 组 的 用 户 设 置 访问 权限 和 权力 ， 通 常 不 需要 有 登录 信息 。 给 组 提供 登录 的 主要 目的 是 创建 多 个 用 户 可 用 的 共享 账号 。 例 如 提供 对 Oracles 数 据 库 的 共享 访问 ， 可 创建 组 “Oracle 数 据 库 
用 户 ”， 并 为 该 组 提供 登录 ， 如 图 27.8 所 示 。 属 于 该 组 的 成 员 均 可 使 用 该 登录 访问 Oracle 数 据 库 。 因 为 该 账号 用 于 访问 第 三 方 数据 库 ， 所 以 密码 需 保存 在 该 登录 中 。 


为 “0racle 娄 据 库 用 户 ” 定 尺 的 登录 
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图 27.8 Oracle 数据 库 组 的 登录 


2. 身 份 验证 域 


通常 ， 每 个 用 户 的 ID 和 密码 都 是 成 对 的 ， 并 且 只 在 特定 范围 内 有 效 。 例 如 ， 数 据 库 服务 器 和 Web 服 务 器 分 别 有 其 各 自 的 验证 机 制 ， 所 以 它们 要 求 有 不 同 的 用 户 ID 和 密码 。 应 用 程序 需要 对 众多 不 同 资源 
进行 访问 ， 这 些 资源 可 能 要 求 不 同 的 凭证 。 每 次 用 户 访问 某 个 资源 时 ， 软 件 必须 使 用 该 资源 认可 的 凭证 


在 SAS 环 境 中 ， 凭 证 是 否 有 效 是 基于 验证 域 (Authentication Domain) 机 制 的 。 只 有 当 用 户 登 录 账 号 的 验证 域 与 服务 器 的 验证 域 相 匹配 时 ， 该 用 户 才 有 可 能 访问 该 服务 器 。 因 此 ， 必 须 正确 地 为 每 组 
使 用 特定 验证 提供 方 的 资源 赋予 验证 域 ， 然 后 将 相同 的 验证 域 赋 予 给 对 该 验证 提供 方 有 效 的 凭证 。 这 种 机 制 在 用 户 访问 第 三 方 DBM 3 或 标准 工作 区 服务 器 时 非常 重要 。 


最 简单 的 情况 下 ， 所 有 的 登录 和 和 SAS 服务 器 都 是 与 同样 的 验证 域 DefaultAuth 相 关联 的 。 什 么 情况 下 可 能 需要 使 用 多 个 验证 域 呢 ?如 下 : 
. 如 果 使 用 了 Web 验 证 ， 可 能 需要 有 用 于 Web 领 域 用 户 ID 登录 的 第 二 个 验证 域 。 在 配置 Web 验 证 的 步骤 中 就 包括 了 这 个 过 程 。 


" 如 果 要 无 颖 地 访问 第 三 方 服务 器 ， 例 如 DBMS 服 务 器 ， 而 第 三 方 服务 器 有 其 自己 的 用 户 ， 则 需要 创建 用 于 该 服务 器 及 其 登录 的 单独 验证 域 。 在 图 27.7 中 ，“SAS 演 示 用 户 ” 可 以 无 颖 访问 Oracle 数 据 库 


中 的 数据 。 
" 如 果 标 准 工作 区 服务 器 不 与 元 数据 服务 器 共享 认证 提供 方 ， 或 者 需要 通过 配置 实现 对 标准 工作 区 服务 器 的 无 颖 个 人 化 访问 ， 则 需要 为 标准 的 工作 区 服务 器 及 其 登录 设置 单独 的 验证 域 。 


验证 域 使 用 SAS Management Console 的 用 户 管理 器 或 服务 器 管理 器 创建 。 打 开 SAS Management Console， 右 键 点 击 “ 用 户 管理 器 ”或 “服务 器 管理 器 ” ， 选 择 “身份 验证 域 ”。 “身份 验证 
域 ” 对 话 框 如 图 27.9 所 示 。 在 该 对 话 框 中 ， 可 创建 、 删 除 和 编辑 身份 验证 域 。 








图 27.9 SAS 环境 的 身份 验证 域 


在 为 用 户 (或 组 ) 创建 登录 时 ， 需 要 选择 该 登录 的 验证 域 ， 默 认为 DefaultAuth。 如 图 27.10 所 示 为 “SAS 演 示 用 户 ” 添 加 Web 验 证 域 的 登录 的 界面 ， 从 “身份 验证 域 ”下 拉 列 表 选 择 “Web” 即 可 为 该 
登录 指定 验证 域 为 “Web”。 也 可 以 在 该 对 话 框 创建 整个 ?As 环境 中 可 用 的 身份 验证 域 (通过 “新 建 ”按钮 ) 。 
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请 输入 登录 信息 。 请 以 “ 域 \ 用 户 世 ”的 格式 输 六 Microsoft Windows 用 


己 JI。 评 炙 信息 ， 请 委 疯 帮助 。 
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确认 密码 CC): 
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图 27.10 为 登录 选择 身份 验证 域 


3. 凭 证 管理 


SAS 和 凭证 (Credential) 管理 技术 为 每 个 连接 的 用 户 在 内 存 中 维护 了 一 个 凭证 列表 ， 该 列表 被 称 为 用 户 上 下 文 。 当 用 户 通过 连接 配置 文件 初始 登录 时 ， 所 提交 的 用 户 ID 和 密码 作为 用 户 上 下 文 的 第 一 条 
记录 被 插入 并 缓存 ， 此 时 ， 客 户 端 会 自动 将 第 一 条 记录 赋予 DefaultAuth 验 证 域 。 不 过 ， 在 以 下 几 种 情况 下 ， 则 不 会 赋予 DefaultAuth 验 证 域 : 


. 用 户 的 连接 配置 文件 中 包括 @saspw 用 户 。 
" 用 户 的 连接 配置 文件 的 身份 验证 域 字段 为 除了 DefaultAuth 之 外 的 其 他 验证 域 。 

. 用 户 通过 Web 浏 览 器 访问 已 经 配置 了 Web 了 验证 的 Web 应 用 (或 者 Web 应 用 的 Web 配 置 因为 某 种 原因 指定 了 其 他 验证 域 ) 。 

用 户 上 下 文 第 一 条 记录 中 的 密码 在 以 后 访问 服务 器 时 可 重用 ， 尽 管 该 密码 并 未 存储 在 元 数据 中 。 接 着 ， 客 户 端 从 该 用 户 的 元 数据 定义 中 获取 信息 ， 并 创建 其 他 记录 。 


: 如 果 该 用 户 或 者 用 户 所 属 组 在 元 数据 定义 中 有 包括 密码 的 登录 (因为 这 些 登 录用 于 对 外 连接 ， 所 以 需要 在 元 数据 定义 中 包括 密码 ) ， 那 么 这 些 赁 证 会 添加 到 用 户 上 下 文中 ， 该 过 程 也 称 为 赁 证 获取 。 
如 果 用 户 属于 多 个 组 ， 或 者 用 户 所 属 组 是 其 他 组 的 成 员 ， 那 么 这 些 组 的 登录 信息 都 会 被 添加 到 用 户 上 下 文中 。 但 是 直接 组 和 间接 组 的 登录 记录 与 用 户 的 距离 不 同 ， 间 接 组 的 登录 记录 离 用 户 距离 更 远 。 


" 如 果 在 会 话 过程 中 用 户 交 互 地 提供 了 和 赁 证， 那么 这 些 赁 证 也 会 添加 到 该 列表 中 。 
当 用 户 请 求 访问 基于 凭证 认证 的 服务 器 时 ， 客 户 端 执行 下 列 步骤 : 
1) 检查 目标 服务 器 的 元 数据 ， 确 定 该 服务 器 所 属 的 验证 域 。 
2) 检查 用 户 上 下 文 确定 其 是 否 包 括 目 标 服务 器 的 验证 域 的 凭 
“ 如 果 该 上 下 文中 包括 目标 验证 域 的 缓存 的 记录 ， 则 使 用 该 记录 。 


` 如 果 用 户 上 下 文中 包含 目标 验证 域 从 元 数据 中 获取 的 记录 ， 则 使 用 该 记录 。 如 果 有 多 个 获取 的 记录 ， 则 使 用 离 用 户 最 近 的 记录 。 


` 如 果 所 获取 的 记录 离 用 户 同等 距离 〈 例 如 ， 用 户 是 两 个 组 的 直接 成 员 ， 而 且 这 两 个 组 都 拥有 相关 验证 域 的 登录 ) ， 则 每 次 连接 对 应 验证 域 的 目标 服务 器 时 ， 会 使 用 相同 的 登录 信息 ， 但 是 不 能 控制 使 
用 哪 一 个 。 
. 如 果 用 户 上 下 文中 不 包含 目标 验证 域 的 记录 (比如 是 桌面 客户 端 ， 则 会 提示 用 户 输入 凭证 ,但 对 Web 应 用 不 会 ) ， 那 么 所 输入 并 通过 了 认证 的 凭证 会 加 入 用 户 上 下 文中 供 下 次 使 用 。 


3) 将 凭证 发 送 到 目标 服务 器 进行 认证 。 


4. 赁 证 管理 示例 


下 面 以 “SAS 开 发 用 户 ” 登 录 SAS Enterprise Guide (登录 其 他 SAs 桌 面 应 用 程序 过 程 也 类 似 ) 执行 任务 为 例 ， 讲 解 SAS 进 行 凭证 管理 的 过 程 。 “SAs 开 发 用 户 ”的 登录 及 所 属 组 和 角色 信息 分 别 如 图 


27.11 和 图 27.12 所 示 。 
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图 27.11 “SAS 开 发 用 户 ” 的 登录 
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图 27.12 “SAS 开 发 用 户 ” 为 “Oracle 数 据 库 用 户 ” 组 成 员 
“SAS 开 发 用 户 ” 包 括 两 条 登录 : 主机 认证 的 登录 和 Web 认 证 的 登录 。 同 时 ， 该 用 户 还 是 “Oracle 数 据 库 用 户 ”组 的 成 员 。 “Oracle 数 据 库 用 户 ” 的 信息 请 参考 图 27.8。 
当 “SAS 开 发 用 户 ” (用 户 ID 为 sasdev) 登录 SAS 应 用 程序 SAS Enterprise Guide 时 ,执行 下 列 步骤 : 
1) 用 户 通过 连接 配置 信息 提供 用 户 名 和 密码 。 这 时 sasdev 的 用 户 上 下 文 有 第 一 条 记录 ， 如 表 27.1 所 示 。 注 意 ， 每 个 条 目 都 包括 验证 域 ， 用 于 将 凭证 与 对 服务 器 有 效 的 凭证 进行 配对 。 


表 27.1 用 户 上 下 文 包含 一 条 记录 


身份 验证 域 密友 
DefaultAuth XX XXX 


2) SAs 读 取 “SAs 开 发 用 户 ” 的 元 数据 信息 ， 并 将 该 用 户 的 登录 (图 27.11 中 显示 的 登录 ) 添加 到 用 户 上 下 文中 。 该 例 中 “SAs 开 发 用 户 ” 所 包括 的 登录 信息 中 均 不 包含 密码 ， 所 以 不 会 添加 到 用 户 上 下 
文中 。 


3) SAS 读 取 “SAS 开 发 用 户 ” 所 属 组 “Oracle 数 据 库 用 户 ” (如 图 27.8 所 示 ) 的 登录 信息 ， 并 添加 到 用 户 上 下 文中 ， 如 表 27.2 所 示 。 


表 27.2 用 户 上 下 文 包 含 两 条 记录 


4) 当 用 户 提交 作业 到 SAS 工 作 区 服务 器 时 ，SAS 检 查 工作 区 服务 器 连接 的 身份 验证 域 ， 如 图 27.13 所 示 。 其 中 的 身份 验证 域 为 DefaultAuth。 
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图 27.13 ”工作 区 服务 器 的 身份 验证 域 


5) SAS 从 用 户 上 下 文中 查找 身份 验证 域 为 DefaultAuth 的 赁 证。 找到 第 一 条 记录 ， 使 用 其 用 户 名 和 密码 进行 验证 。 


6) 当 该 用 户 通过 SAS Enterprise Guide 访 问 Oracle 数 据 库 中 的 表 时 ，SASs 检 查 “Oracle 数 据 库 服务 器 ”连接 的 身份 验证 域 ， 如 图 27.14 所 示 ， 身 份 验证 域 为 OraAuth。 
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图 27.14 “Oracle 数 据 库 服务 器 ”的 身份 验证 域 


7) SAS 从 用 户 上 下 文中 查找 身份 验证 域 为 OraAuth 的 凭证 ( 即 用 户 名 oraluser 及 存储 的 密码 ) 。 


8) 当 用 户 视图 通过 “Platform Process ManageI 预 定 服务 器 ”预定 作业 流 时 ，SAS 检 查 该 预定 服务 器 的 身份 验证 域 ， 如 图 27.15 所 示 。 身 份 验证 域 为 LSFAuth。 
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图 27.15 “Platform Process Managet 预 定 服务 器 的 身份 验证 域 
9) SAS 查 找 “SAS 开 发 用 户 ”的 用 户 上 下 文 ， 未 找到 包含 该 身份 验证 域 的 凭证 ， 这 时 SAS 会 弹出 对 话 框 要 求 输入 用 户 名 和 密码 。 
10) 当 用 户 在 对 话 框 中 提供 用 户 名 和 密码 ， 并 成 功 通过 认证 后 ， 该 凭证 会 加 入 “SAS 开 发 用 户 ” 的 用 户 上 下 文中 ， 如 表 27.3 所 示 。 


表 27.3 用 户 上 下 文 包含 3 条 记录 


身份 验证 域 密友 


OraAuth oraluser XXXXXX 


LSFAuth lsfuser XXXXxXX 


当 用 户 再 次 访问 身份 验证 域 为 LSFAuth 的 服务 器 时 ， 就 可 以 使 用 该 凭证 进行 认证 了 。 


27.2.3 ”认证 到 元 数据 服务 器 


每 个 用 户 必须 有 访问 元 数据 服务 器 的 账号 ， 才 可 以 直接 访问 或 通过 信任 关系 访问 元 数据 服务 器 。 最 简单 的 情况 是 ， 用 户 已 经 拥有 元 数据 服务 器 的 主机 已 知 账号 ， 则 使 用 默认 的 主机 认证 ， 此 时 不 需要 额 
外 的 配置 。 例 如 ， 元 数据 服务 器 在 UNIX 上 ， 用 户 有 该 UNIX 主 机 认识 的 LDAP 提 供 方 的 账号 ， 或 者 元 数据 服务 器 在 Windows 上 ， 用 户 有 Windows 主 机 所 在 AD 域 账 号 。 


在 某 些 情况 下 ， 用 户 有 元 数据 服务 器 的 主机 不 认识 的 账号 ， 考 虑 如 下 情景 

情景 1: 元 数据 服务 器 在 UNIX 上 ， 用 户 有 Active Directory 账 号 。 

可 通过 PAM (Pluggable Authentication Modules) 机 制 使 UNIX 主 机 认识 该 账号 。 
情境 2: 用 户 有 元 数据 服务 器 不 认识 的 LDAP 提 供 方 的 账号 。 

可 配置 “直接 LDAP 认 证 ”使 元 数据 服务 器 认识 该 LDAP 提 供 方 。 

情境 3: 用 户 有 元 数据 不 认识 的 Web 外 围 账号 。 


可 配置 “Web 认 证 ”使 元 数据 服务 器 信任 Web 外 围 账号 。 需 要 注意 的 是 ，Web 认 证 只 能 解决 用 户 登录 Web 应 用 的 问题 ， 在 登录 SAS 桌 面 应 用 程序 时 仍 需要 提供 账号 给 元 数据 服务 器 或 其 主机 认证 。 
27.2.4 ”认证 到 计算 服务 器 


已 经 连接 到 元 数据 服务 器 的 用 户 可 以 通过 SAS 令 牌 (Token) 认证 访问 OLAP 服 务 器 、 存 储 过 程 服务 器 ， 以 及 共享 池 工 作 区 服务 器 。 


在 标准 配置 中 ，OLAP 服 务 器 支持 IWA 直 接连 接 ， 类 似 于 元 数据 服务 器 的 支持 IWA 从 SAS 桌 面 客户 端 进行 直接 连接 。 但 是 ， 在 SAS 平 台中 ， 大 多 数 对 OLAP 服 务 器 的 访问 是 客户 端 首先 连接 到 元 数据 服务 
器 ， 然 后 再 连接 到 OLAP 服 务 器 ， 而 不 是 直接 连接 。 在 这 种 情况 下 ， 连 接 到 OLAP 服 务 器 使 用 SAs 令 牌 认证 ， 不 使 用 |WA。 


为 了 无 颖 访问 工作 区 服务 器 ， 必 须 与 元 数据 服务 器 协调 工作 区 服务 器 。 在 初始 配置 时 ， 工 作 区 服务 器 使 用 主机 认证 ， 可 以 将 其 配置 为 使 用 SAs 令 牌 或 使 用 WA 认证 。 


27.2.5 ”认证 到 数据 服务 器 


为 了 提供 对 第 三 方 数据 服务 器 的 访问 ， 需 要 通过 用 户 或 组 的 账号 选项 卡 在 元 数据 中 保存 用 户 的 ID 和 密码 ， 具 体 请 参考 “凭证 管理 ”。 可 选择 对 单个 用 户 进行 设置 ， 或 者 设置 组 使 用 共享 账号 ， 也 可 以 采 
用 两 者 组 合 的 方式 。 


27.2.6 单 点 登录 


单 点 登录 (Single-Sign On) 是 多 个 相关 的 独立 软件 系统 所 具有 的 访问 控制 属性 。 使 用 该 属性 ， 用 户 登 录 一 次 就 可 获得 对 所 有 系统 的 访问 ， 而 不 必 再 被 重复 提示 登录 。 表 27.4 给 出 了 能 够 提供 单 点 登录 
属性 的 方法 ， 以 及 每 种 方法 提供 单 点 登录 的 应 用 程序 和 服务 器 对 照 表 。 


表 27.4 SAS 应 用 程序 和 服务 器 及 支持 单 点 登录 的 机 制 对 照 表 


Web 认证 SAS 令 牌 认证 凭证 重用 和 获取 
SAS 桌面 客 P 端 | VvV | | 
SAS Web 应 用 程序 | VvV | vv | 


\ ~、 


(经 ) 


| Web 认证 SAS 令 牌 认证 凭证 重用 和 获取 ' 
数据 服务 器 一 | 一 V 


凭证 重用 和 获取 请 参考 27.2.2 节 “凭证 管理 ” 
@@ 这 里 的 SAS 服 务 器 并 不 是 指 所 有 的 SAS 服 务 器 。 对 于 每 种 认证 机 制 可 提供 单 点 登录 的 SAS 服 务 器 ， 请 参考 27.2.1 节 “认证 机 制 ” 给 出 的 适用 服务 器 范围 。 
此 外 补充 以 下 两 点 : 

. SAS 认 证 API 提 供 了 将 用 户 开发 的 应 用 程序 与 SAS Web 应 用 程序 集成 的 方法 ， 可 从 已 经 验证 过 的 自 定 义 应 用 程序 访问 SAS Web 应 用 程序 。 


. SAS Web 应 用 程 还 支持 与 第 三 方 安全 管理 产品 集成 ， 例 如 IBM WebSeal、CA SiteMinder 已 提供 企业 整个 系统 的 单 点 登录 。 


27.3 ”授权 


身份 验证 成 功 后 ， 系 统 必须 确认 用 户 已 被 授权 访问 特定 的 资源 ， 同 时 要 明确 被 许可 对 该 资源 执行 哪些 操作 。 为 用 户 授予 特定 资源 的 访问 权限 的 过 程 称 为 授权 (Authorization) 。SAS 智 能 分 析 平 台 提供 
了 基于 元 数据 的 授权 层 ， 来 补充 主机 环境 或 其 他 系统 对 资源 的 保护 。 


27.3.1 “元 数据 授权 


元 数据 授权 层 用 于 管理 对 几乎 所 有 的 元 数据 对 象 的 访问 ， 例 如 报表 、 表 定义 、 信 息 映 射 、 作 业 、 存 储 过 程 以 及 服务 器 定义 等 。 注 意 ， 有 些 客户 端 ， 例 如 SAs Enterprise Guide、Data Integration 
studio， 人 允许 用 户 运 行 SAS 程 序 越过 元 数据 层 直 接 访问 数据 。 对 于 这 种 情况 ， 可 通过 使 用 绑 定 于 元 数据 的 元 数据 边界 逻辑 库 (metadata-bound library) 来 避免 ,详细 情况 请 参考 SAS Intelligence 
Platform: Security Administration Guide 的 相关 章节 


1. 访 问 控制 项 
SAS 为 SAS 数 据 对 象 提供 了 多 种 访问 控制 项 。 如 表 27.5 所 示 为 通用 的 权限 访问 控制 及 其 描述 。 


表 27.5 访问 控制 项 


访问 控制 项 英文 对 照 (简写 说 有明 
壮 取 元 数据 查看 对 象 。 例 如 要 看 到 报表 ， 则 首先 需要 读 取 该 报表 的 元 数据 的 权限 
编辑 、 删 除 对 象 或 设置 对 象 权 限 。 要 删 掉 一 个 对 象 ， 还 需要 有 对 
必 对 各 所 [在 父 文件 夹 (SAS 文件 夹 ) 的 成 员 元 数据 的 写 权限 
下 加 对 和 象 到 SAS 文件 夹 中 ， 或 删除 SAS 文件 夹 中 的 对 象 。 为 了 使 
用 可 以 与 文件 夹 中 的 内 容 进行 交互 ， 但 不 能 与 文件 夹 自身 进行 交互 
则 对 该 文件 夹 授 予 玻 i 同时 拒绝 写 入 元 数据 权限 
签 人 和 签 出 在 变更 党 理 区 的 对 象 。 该 权限 仅 在 SAS Data 


Integration Studio 中 | l、 ] 


写 入 元 数据 WriteMetadata (WM ) 


Write MemberMetadata 


1 村 人 成 员 元 数据 ; , 
(WWMM ) 


徐 人 元 数据 CheckInMetadata (CM ) 





此 外 ， 对 于 很 多 SAs 对 象 ， 如 果 涉 及 SAs 对 象 后 端的 数据 和 服务 器 管理 ，SAs 还 提供 了 特殊 目的 的 权限 控制 ， 如 表 27.6 所 示 。 


表 27.6 “特殊 目的 的 访问 控制 项 


访问 控制 项 | 英文 对 照 (简写 说 明 
地 有 取 通过 特定 对 象 谈 取 数据 ， 例 如 ， 通 过 立方 体 、 信 息 映 射 ， 以 及 可 通过 元 数 
据 LIBNAME 引擎 访问 的 表 
写 信 US 通过 特定 对 象 更 新 数据 ， 例 如 通过 元 数据 LIBNAME 引擎 和 发 布 频道 访问 





的 数据 
创建 通过 元 数据 LIBNAME 引擎 添加 数据 
和 TT 


管理 Administer (A) 职 作 人 村 下 和 暂停、 恢复 、 刷 新 或 静默 ) 特定 的 SAS 服务 需 或 Spawner 


有 时 为 了 执行 一 个 任务 ， 用 户 必须 在 所 有 层 有 充分 的 访问 权限 ， 这 时 应 该 怎么 办 ? 具体 会 在 后 面 27.3.4 节 “访问 SAS 对 象 ” 中 详细 介绍 。 
2. 权 限 设置 粒度 

SAS 提 供 通 过 以 下 粒度 来 进行 权限 设置 。 

(1) 元 数据 存储 库 级 的 访问 控制 


存储 库 级 控制 是 从 存储 库 ACT (Access Control Template,， 访问 控制 模板 ) 的 权限 模式 进行 管理 的 。 所 有 注册 用 户 都 应 该 在 基础 存储 库 ACT 的 权限 模式 中 具有 ReadMetadata 和 WriteMetadata 权 
限 。 


(2) SAS 对 象 级 访问 控制 


对 象 级 控制 管理 对 特定 对 象 的 访问 ， 如 管理 对 报表 、 信 息 映 射 、 存 储 过 程 、 表 、 列 、 立 方 体 或 文件 夹 的 访问 。 可 以 分 别 (如 显 式 设置 ) 定义 资源 层 控制 ， 或 根据 模式 (通过 应 用 访问 控制 模板 ) 来 定义 
资源 层 控制 。 


(3) 细 粒 度 的 控制 


细 粒 度 的 控制 指 通过 添加 约束 ( 称 为 权限 条 件 ) 来 显 式 地 给 资源 内 的 数据 子 集 (例如 表 的 行 、 列 或 立方 体 的 维度 ) 赋予 读 权 限 。 


3. 权 限 关 系 


SAS 提 供 如 下 权限 关系 网 络 。 
(1) 对 象 继承 


在 对 象 继承 网 络 中 ， 设 置 在 一 个 对 象 上 的 权限 可 能 会 影响 许多 其 他 对 象 ， 最 简单 的 这 类 情况 是 SAS 文 件 夹 树 。 大 多 数 SAs 对 象 在 元 数据 人 存储 库 中 以 文件 夹 形 式 组 织 ， 设 置 在 文件 夹 上 的 权限 会 影响 文件 夹 
中 对 象 的 权限 。 在 图 27.16 中 ， 表 HMEQ 会 从 其 所 在 的 文件 夹 Shared Data 继 承 权 限 。 


SAS 对 象 继 承 的 权限 顺序 如 下 : 


1) 每 个 对 象 首先 会 使 用 最 基础 的 存储 库 层 控 制 (Default ACT) 所 定义 的 访问 控制 。Default ACT 定义 的 默认 权限 可 通过 如 下 方式 查看 ， 在 SAs Management Console 中 ， 选 择 “授权 管理 
器 ”一 “访问 控制 模板 ”一 Default ACT， 右 键 单 击 “ 属 性 ”， 在 “Default ACT 属性 ”对 话 框 中 ， 选 择 “ 权 限 模式 ”选项 卡 。 如 图 27.17 所 示 为 Default ACT 对 “SAS 系 统 服务 ”组 进行 权限 模式 设置 。 
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图 27.17 Default ACT 


2) 优先 级 较 高 的 是 要 访问 的 对 象 的 父 对 象 ( 例 如 报表 所 处 的 SAS 文 件 夹 ) 对 于 用 户 或 组 的 访问 权限 ， 即 对 象 会 继承 其 父 对 象 的 访问 控制 。 如 图 27.18 所 示 为 表 HMEQ 的 授权 信息 ， 图 中 标识 为 灰色 的 权 
限 项 表示 该 权 继承 自 其 父 对 象 。 

















图 27.18 ”继承 自 其 父 对 象 的 权限 


3) 显 式 地 通过 ACT 作用 于 对 象 的 授权 则 具有 更 高 的 优先 级 ， 即 显 式 地 应 用 ACT， 其 优先 级 更 高 。 使 用 访问 控制 模板 时 先 通过 授权 管理 器 创建 模板 ， 然 后 选择 要 设置 的 对 象 ， 右 键 单 击 “ 属 性 ” ， 在 “ 授 
权 ” 选 项 卡 中 ， 使 用 按钮 “访问 控制 模板 ”来 选择 需要 应 用 的 模板 。 图 27.18 中 标识 为 绿色 的 权限 项 表示 该 权限 来 自 于 访问 控制 模板 。 


4) 显 式 地 直接 赋予 对 象 的 授权 具有 最 高 的 优先 级 。 在 “授权 ”选项 卡 上面 的 窗口 中 ， 可 以 添加 用 户 或 组 。 在 进行 直接 授权 时 ， 先 选择 “用 户 和 组 ”， 然 后 通过 勾 选 “授予 ” 框 或 “拒绝 ” 框 来 授予 或 拒 
绝对 象 相应 的 权限 。 图 27.18 中 无 背景 颜色 的 权限 项 表示 该 权限 通过 直接 授权 获得 。 


(2) 身份 成 员 关 系 


在 身份 成 员 关 系 的 网 络 中 ， 给 一 个 身份 分 配 的 权限 可 能 影响 许多 其 他 身份 。 例 如 ， 如 果 给 一 个 组 赋予 了 访问 报表 的 权限 ， 那 么 该 访问 权限 也 会 应 用 到 该 组 的 成 员 上 。 这 种 成 员 关 系 网 络 通过 优先 顺序 管 
理 ， 优 先 级 最 高 的 是 直接 赋 给 该 用 户 的 权限 ， 其 次 是 用 户 所 属 直 接 组 的 权限 ， 再 次 是 用 户 所 属 非 直接 组 权限 ， 最 后 是 用 户 所 属 隐 式 组 SASUSERS 或 PUBLIC 的 访问 控制 权限 ， 如 图 27.19 所 示 。 


较 高 优先 级 较 窜 影 啊 度 


直接 成 员 头 系 


间接 成 员 关 系 





i 
SASUSERS (注册 用 户 ) 
PUBLIC( 可 登录 的 任何 人 人 ) 


较 低 优 先 级 SI 区 广 虹 2 响 诬 


图 27.19 身份 成 员 关 系 的 权限 


加 国 】 国 | 国手 硬 “国生 于 三国 可 细 王 村】 于 3 国 3 轩 】 国 】 辐 3 国 3 
于 大 旧 1 ii 本 | 本 | 而 | 本 大 呈 古国 本 | 本 二 本 天 本 四 有 | 本 有 加 | 本 | 本 国 ) 


27.3.2 ”访问 元 数据 文件 夹 


根据 SAS 权 限 继承 关系 机 制 ， 可 以 通过 对 SAS 文 件 夹 进行 权限 设置 ， 来 统一 管理 其 子 文件 夹 ， 以 及 其 中 所 有 SAS 对 象 的 权限 。 
对 文件 夹 设置 权限 的 一 个 方式 是 创建 几 个 常用 ACT (包括 常用 组 的 权限 ， 例 如 PUBLIC、SAS 管 理 员 、SAS 系 统 服 务 等 ) ， 并 且 将 其 应 用 到 要 保护 的 文件 夹 上 。 如 果 还 需要 对 特定 的 组 或 用 户 进行 授权 ， 
则 可 以 通过 继续 对 目标 文件 夹 添加 显 式 的 控制 来 对 ACT 设置 进行 补充 。 


27.3.3 ”访问 数据 


SAS 元 数据 授权 层 可 用 来 限制 对 SAS 数 据 的 访问 ,但 仅 应 用 于 当 用 户 在 元 数据 可 知 的 上 下 文中 请 求 数据 时 。SAS 表 (数据 集 ) 存储 为 主机 操作 系统 上 的 文件 。 通 常 ， 在 主机 操作 系统 上 有 访问 和 读 取 权 限 
的 用 户 都 可 以 访问 和 读 取 SAS 表 。 


例如 ， 假 定 用 户 在 元 数据 中 注册 了 SAs 逻 辑 库 和 表 ， 在 SAs Management Console 中 ,设置 用 户 A 对 表 Salary 没 有 读 取 元 数据 权限 ( 即 拒绝 该 权限 ) 。 那 么 在 元 数据 可 知 的 应 用 程序 中 ， 用 户 A 看 不 到 
表 Salary。 但 是 ， 如 果 用 户 A 有 访问 该 表 的 物理 文件 的 主机 访问 权限 ， 那 么 用 户 A 可 以 在 Base SAS 中 打开 (或 在 Base SAS 中 使 用 LIBNAME 语 句 打开 ) 该 文件 并 查看 所 有 的 数据 。 也 就 是 说 ， 在 元 数据 层 拒绝 
读 取 元 数据 权限 不 会 应 用 在 直接 访问 该 表 时 。 因 此 ， 需 要 考虑 并 解决 对 9AS 逻 辑 库 和 表 的 物理 层 访问 的 问题 。 


下 面 几 种 方式 可 用 于 保护 SAS 数 据 : 


* 仅 提 供 中 介 访 问 。 在 主机 层 ， 不 提供 用 户 的 主机 身份 对 数据 的 物理 访问 ， 而 仅 提 供 称 为 启动 凭证 (Launch Credential) 的 服务 账号 的 物理 访问 权限 。 当 用 户 需要 访问 数据 时 ， 可 通过 工作 区 服务 器 ( 需 
配置 为 SAS 令 牌 认证 ) 、 共 享 池 工作 区 服务 器 ， 或 者 存储 过 程 服务 器 来 实现 ， 这 些 服务 器 进程 会 使 用 该 服务 账号 访问 主机 物理 数据 。 这 时 ， 用 户 通 过 这 些 服务 器 实现 的 访问 受 元 数据 层 授权 机 制 的 保护 。 


. 将 数据 绑 定 到 元 数据 上 ， 这 样 所 有 SAS 对 数据 的 请 求 都 受 元 数据 层 权 限 的 保护 。 详 细 情 况 请 参考 SAS 支 持 网 站 的 文档 SAS Guide to Metadata-Bound Library。 


. 还 可 以 通过 对 静态 数据 进行 加 密 ， 以 达到 保护 数据 的 目的 。 


27.3.4 ”访问 SAS 对 象 


本 节 给 出 的 一 系列 表格 ， 展 示 了 对 于 给 定 的 SAS 对 象 要 执行 各 种 任务 时 用 户 必须 具有 的 权限 。 


1. 访 问 SAS 文 件 夹 


在 访问 SAS 文 件 夹 时 ， 用 户 必须 对 SAS 元 数据 存储 库 (表格 中 简称 为 存储 库 ) 、 文 件 夹 所 在 的 父 文件 夹 、 文 件 夹 自 身 ， 以 及 项 (如 果 是 对 文件 夹 中 的 项 进行 操作 ) 有 相应 的 访问 权限 。 各 层 的 访问 权限 如 
表 27.7 所 示 。 


表 27.7 访问 SAS 文 件 夹 要 求 的 权限 


任 务 存储 库 父 文件 夹 文件 夹 项 
EN 
删除 文件 夹 RM WM 一 
一 
设置 文件 夹 权限 RM | RM | RM. WwWM 
向 文件 夹 中 添加 项 | RMWM | RM | RM WMM 一 
从 文件 夹 中 删除 项 于 一 | 一 型 一 一 . WMM RM、 WM 
糙 贴 / 学 出 项 、WMM 3 


(如 果 父 文件 夹 为 根 文件 夹 ， 则 需要 对 根 文件 夹 有 RM、WM 访 问 权 限 。 


2. 访 问 数据 表 


在 访问 SAS 表 时 ， 用 户 需要 对 SAS 元 数据 存储 库 、SAS 服 务 器 (如 果 使 用 了 SAS 服 务 器 ) 、 表 所 属 的 逻辑 库 、 表 所 在 的 父 文件 夹 、 表 自身 的 元 数据 ， 以 及 表 的 列 有 相应 的 访问 权限 。 各 层 的 访问 权限 如 表 
27.8 所 示 。 


表 27.8 访问 数据 表 需 要 的 权限 项 


任务 列 
删除 表 RM、WM | RM、WMM 一 
设置 表 权 限 | FM | 一 | RM RM = 
访问 表 数 据 RM RM RM 


3. 访 问 报表 


在 访问 SAS 报 表 时 ， 用 户 需 要 对 SAS 元 数据 存储 库 、 报 表 元 数据 所 在 的 父 文件 夹 、 报 表 自 身 的 元 数据 、 报 表 生 成 使 用 的 存储 过 程 和 信息 映射 (如 果 使 用 了 ) ， 以 及 生成 该 报表 所 使 用 的 数据 (通过 元 数据 
LIBNAME 引 擎 或 OLAP 服 务 访问 的 数据 ) 有 如 表 27.9 所 示 的 访问 权限 。 


表 27.9 访问 报表 需要 的 权限 项 

任务 父 文件 夹 报 ” 表 | 存储 过 程 | 信息 映射 | 。 数据 
创建 和 保存 报表 RM.WM | RM NMM | 一 | RM RM 、R 
WA Ta | acwar[ aa = 二 二 = 
查看 和 刷新 报表 | RM | | | 
查看 批 处 理 报表 下 和 有 本 -二 于 间 玫 < 台 基 | 
IT 
设置 报表 权限 


4. 访 问 信息 映射 


在 访问 SAs 信 息 映 射 时 ， 用 户 需要 对 SAs 元 数据 存储 库 、 信 息 映 射 元 数据 所 在 的 父 文件 夹 、 信 息 映 射 自 身 的 元 数据 、 信 息 映 射 使 用 的 存储 过 程 (如 果 使 用 了 ) ， 以 及 该 信息 映射 所 使 用 的 数据 (通过 元 数 
据 LIBNAME 引 擎 或 OLAP 服 务 器 访问 的 数据 ) 有 如 表 27.10 所 示 的 访问 权限 。 


表 27.10 访问 信息 映射 需要 的 权限 项 


任务 父 文件 夹 信息 映射 存储 过 程 " 数据 
创建 和 保 存 信息 映射 | BM IR 
o 加 或 生命 名 信息 肝 | RM mm 
在 信息 哆 射 中 运行 查询 RM、WM RM. R® 


(DD 如果 信息 映射 中 使 用 到 存储 过 程 ， 则 要 求 对 该 存储 过 程 有 给 出 的 权限 。 


@ 对 通过 元 数据 LIBNAME' 引 人 擎 或 OLAP 服 务 器 访问 的 数据 要 求 有 Read 权 限 。 


5. 访问 存储 过 程 


在 访问 SAS 存 储 过 程 时 ， 用 户 需 要 对 SAS 元 数据 存储 库 、 存 储 过 程 元 数据 所 在 的 父 文件 来、 存储 过 程 运 行 的 应 用 服务 器 (可 能 是 存储 过 程 服务 器 或 工作 区 服务 器 ) 、 存 储 过 程 自身 的 元 数据 ， 以 及 存储 过 
程 访问 的 数据 (通过 元 数据 LIBNAME 引 警 或 OLAP 服 务 访问 的 数据 ) 有 如 表 27.11 所 示 的 访问 权限 。 


表 27.11 访问 存储 过 程 需 要 的 权限 项 


EE 
mm 
二 


删除 存储 


I FL 


芭 上 且 . 什 


个 对 通过 元 数据 LIBNAME' 引 擎 或 OLAP 服 务 器 访问 的 数据 要 求 有 Read 权 限 。 


6. 访 问 OLAP 立 方 体 


在 访问 SAS OLAP 立 方 体 时 ， 用 户 需要 对 SAS 元 数据 存储 库 、 执 行 访问 行为 的 SAS 应 用 服务 器 、 立 方 体 使 用 的 模式 (Schema) 、 立 方 体 元 数据 所 在 的 父 文件 夹 、 立 方 体 自身 的 元 数据 ， 以 及 构建 立方 体 
的 源 数据 (通过 元 数据 LIBNAME3 引 擎 进行 访问 的 数据 ) 有 如 表 27.12 所 示 的 访问 权限 。 


表 27.12 访问 OLAP 立 方 体 需要 的 权限 项 


注册 立方 体 、 WM 、 WM 、 WMM i RM R" 
删除 立方 体 CI RM、WMM | RM、WM 一 
TIT RM ER 
方 体 
人 





访问 立方 体 数据 [CC TT 
注册 模式 (Schema ) 、WM {、WMM 一 一 一 一 
使 用 OLAP 服务 器 监视 FF IE 本 


对 通过 元 数据 LIBNAME 引 擎 访问 的 数据 要 求 有 Read 权 限 。 





7. 访 问 OLAP 共 享 维度 


在 访问 SAS OLAP 共 享 维度 时 ， 用 户 需要 对 SAS 元 数据 存储 库 、 执 行 访问 的 SAAS 应 用 服务 器 、 共 享 维度 使 用 的 模式 (Schema) 、 共 享 维度 元 数据 所 在 的 父 文件 夹 、 使 用 共享 维度 的 立方 体 、 共 享 维度 自 
身 的 元 数据 ， 以 及 共享 维度 的 源 数据 (通过 元 数据 LIBNAME 引 警 进行 访问 的 数据 ) 有 如 表 27.13 所 示 的 访问 权限 。 


表 27.13 访问 OLAP 共 享 维度 需要 的 权限 项 


EE 闪 训 维度 浙 埃 反 
删除 共享 维度 me RM、 WM RM、WMM | 一 


个 对 通过 元 数据 LIBNAME 引擎 访问 的 数据 要 求 有 Read 权 限 。 








@) 不 能 删除 与 任何 立方 体 关 联 的 共享 维度 。 
@) 对 通过 元 数据 LIBNAME 引 擎 访问 的 数据 要 求 有 Read 权 限 。 
8. 访 问 友 布 频道 


在 访问 SAS 发 布 频道 (Publishing Channel) 时 ， 用 户 需要 对 SAS 元 数据 存储 库 、 发 布 频道 元 数据 所 在 的 父 文件 夹 、 频 道 自身 的 元 数据 ， 以 及 订阅 者 (通过 元 数据 LIBNAME 引 警 进行 访问 的 数据 ) 有 如 
表 27.14 所 示 的 访问 权限 。 


表 27.14 访问 发 布 频道 需要 的 权限 项 


添加 发 布 频道 或 订阅 RM、WMM 一 一 一 一 
删除 发 布 频 道 或 订阅 er RM、 WMM RM、 WM 
发 布 内 容 到 频道 RM、W、WM- RM™ 


(如 果 频 道 拥 有 存档 持久 化 存储 ， 那 么 需要 WM 权限 。 











加 内 容 仅 仅 会 发 布 给 拥有 RM 权限 的 订阅 者 。 


27.3.5 ”数据 的 细 粒 度 控 制 


有 时 因为 数据 敏感 性 ， 经 党 需要 设置 不 同 的 用 户 仪 能 看 到 数据 的 不 同 部 分 ， 如 某 列 或 某 行 。 例 如 ， 每 个 销售 人 员 应 该 只 能 访问 自己 的 奖金 。 在 有 些 情况 下 ， 这 种 要 求 可 能 是 为 了 防止 信息 过 载 。 例 如 ， 
全 国 性 组 织 内 的 区 域 销售 团队 可 能 只 对 其 所 在 区 域 的 销售 信息 感 兴 趣 。 细 粒度 访问 通 溃 是 基于 组 织 结构 进行 区 分 的 ， 例 如 管理 层级 或 产品 矩阵 中 的 用 户 所 在 的 位 置 。 数 据 的 可 见 性 可 能 依赖 于 简单 的 、 站 点 
特定 的 条 件 ， 例 如 用 户 的 安全 检查 级 别 ， 或 者 依赖 于 包括 多 种 考虑 的 复杂 条 件 。 


细 粒 度 的 控制 可 用 来 指定 谁 可 以 访问 表 的 特定 列 或 立方 体 维度 内 的 特定 维度 成 员 。 这 些 控制 通常 是 基于 用 户 特征 (例如 员工 1D 或 组 织 单元 ) 来 提取 数据 的 子 集 的 。 例 如 ， 包 含 病人 医疗 信息 的 表 可 能 会 
由 行 级 (row-level) 权限 进行 保护 ， 该 行 级 权限 使 医生 只 能 看 到 自己 病人 的 数据 。 


细 粒 度 的 控制 是 基于 过 滤器 的 ， 并 且 依 赖 于 规范 化 及 与 这 些 过 滤器 一 起 使 用 的 目标 数据 。 当 使 用 细 粒 度 控制 时 ， 对 于 用 户 请 求 浏览 数据 ， 有 以 下 3 种 可 能 的 授权 决策 结果 
. 授予 : 请 求 的 用 户 可 以 访问 所 有 数据 。 
. 拒绝 : 请 求 的 用 户 不 能 访问 任何 数据 。 
“ 条 件 授予 : 请 求 的 用 户 只 能 访问 符合 指定 的 过 滤 条 件 的 数据 。 
下 面 的 组 件 提供 了 细 粒 度 控制 的 实现 。 
(1) BI 行 级 权限 


BI 行 级 权限 为 SASs 数 据 集 和 第 三 方 关系 型 数据 访问 提供 了 通过 信息 映射 进行 的 过 滤 。 在 SAs Information Map Studio 中 可 使 用 INFOMAPS 过 程 定义 和 使 用 这 些 过 滤器 。 请 参考 SAS Guide to BI Row- 


Level Permissions 获 得 详细 信息 。 
BI 行 级 权限 主要 是 与 AS Web Report Studio 一 起 使 用 。 在 SAS Visual Analytics 中 可 用 的 行 级 安全 特性 的 信息 机 制 与 此 不 同 ， 请 参考 SAS Visual Analytics: Administration Guide。 
(2) SAS OLAP Server 


SAS OLAP Server 使 用 了 MDX 表 达 式 对 SAS OLAP 数 据 进 行 过 滤 。 可 以 在 SAS Management Console、SAS OLAP Cube Studio 或 SAS Data Integration Studio 中 定义 和 使 用 这 些 过 滤器 。 请 参考 
SAS OLAP Server: User s Guide 获 取 详 细 信息 。 


(3) SAS Scalable Performance Data Server 


SAS Scalable Performance Data Server 使 用 户 定义 基于 连接 客户 端的 用 户 I|D 过 滤 行 的 数据 库 视 图 。 该 功能 由 @SPDSUSR 系 统 变量 提供 。 请 参考 SAS Scalable Performance Data Server: 
Administrator s Guide 获 取 详 细 信息 。 


27.4 加 密 


保证 数据 的 保密 性 ， 使 其 足够 安全 ， 一 直 是 企业 级 用 户 的 关键 需求 之 一 。 对 于 网 络 上 的 业务 交易 来 说 ， 保 密 性 非常 重要 ， 例 如 在 企业 与 其 消费 者 之 间 、 企 业 之 间 ， 以 及 企业 内 部 的 业务 交易 都 会 涉及 保 
密 数据 ， 这 种 保护 数据 的 过 程 称 为 加 密 。 加 密 (Encryption) 是 通过 数学 过 程 将 可 以 理解 的 数据 (明文 ) 转换 成 不 可 理解 的 格式 ( 密 文 ) 。 当 应 用 适当 的 密 钥 解密 (解锁 ) 密 文 时 ， 即 可 翻译 成 明文 。SAS 
提供 两 类 加 密 强度 : 


* SASProprietary。SASProprietary 提 供 了 SAS 私 有 算法 ， 它 使 用 32 位 固定 编码 ， 仅 能 保护 信息 不 被 意外 泄露 。 


. SAS/SECURE 软 件 。SAS/SECURE 提 供 RC2、RC4、DES、AES 等 工业 标准 加 密 算 法 。 由 于 进口 保护 ，SAS/SECURE 在 中 国 不 能 使 用 ， 本 书 也 不 对 SAS/SECURE 进行 过 多 讨论 ， 有 兴趣 的 读者 请 参考 


SAS Intelligence Platform: Secutity Administration Guide 进 行 学 习 。 
SASProprietary 提 供 中 等 程度 的 安全 性 ， 足 够 保护 数据 不 被 随意 查看 。SAS/SECURE 和 TLS (Transport Layer Security， 传 输 层 安全 性 ) 提供 较 高 级 别 的 安全 性 。 
加 密 用 于 帮助 保护 传输 中 (in transit) 的 信息 和 静态 (at rest) 信息 
. 线 上 (over-the-wire) 加 密 保 护 在 传输 中 的 数据 。 从 SAS 服 务 器 发 出 或 发 送 到 SAS 服 务 器 的 传输 中 密码 都 是 加 密 或 编码 的 。 


` 磁盘 上 (on-disk) 加 密 保 护 静 态 数据 。 静 态 数据 包括 配置 文件 中 的 密码 、 登 录 密 码 和 内 部 账号 密码 等 ， 这 些 都 经 过 了 加 密 或 编码 。 当 指定 数据 集 选 项 ENCRYPT= 时 ，SAS 数 据 集 也 会 被 加 密 。 
27.4.1 加 密 提供 方 
SAS 中 可 使 用 的 加 密 提 供 方 有 SASProprietary、TSL/SSL 和 SSH， 以 及 通过 SAS 系 统 选项 进行 加 密 。 


1.SASProprietary 


SAS 私 有 算法 是 在 Base SAs 软 件 中 包括 的 固定 编码 算法 。 登 录 对 象 的 密码 就 是 使 用 ?As 私有 算法 存储 的 。 磁 盘 上 配置 文件 中 的 密码 默认 使 用 SAs 私 有 算法 SAs002 编 码 。 内 部 账号 密码 使 用 MD5 哈 希 算 法 


加 密 后 存储 在 元 数据 存储 库 中 。 
2.TLS/SSL 


TLS 是 SSL (Secure Socket Layer， 安 全 套 接 层 ) V3.0 的 后 续 版 本 。TLS 和 SSL 是 提供 网 络 数据 隐私 、 数 据 完整 性 以 及 认证 的 协议 。TLS 使 用 的 加 密 算法 包括 RC2、RC4、DES、TripleDES、AES 等 。 除 了 
提供 加 密 服务 以 外 ，TLS 还 会 执行 客户 端 和 服务 器 认证 ， 并 使 用 消息 认证 码 保证 数据 的 完整 性 。 所 有 主流 浏览 器 都 支持 TLS。 许 多 网 页 使 用 该 协议 来 保护 需要 保密 的 用 户 信息 ， 例 如 信用 卡号 。TLS 协 议 是 独 
立 的 应 用 ， 其 对 其 上 层 的 HTTP、FTP 和 Telnet 透 明 。 


Base SAS 软 件 兼 容 SSL2.0、SSL3.0 和 TLS1.0。 可 在 SAS 客 户 端 和 SAS 服 务 器 之 间 配 置 TLS/SSL 来 加 强 传 输 安全 性 。 具 体 配 置 步 又 请 参考 SAS 相 关 文 档 。 
3.SSH 


SSH (Secure Shell) 协议 使 用 户 能 够 通过 安全 连接 访问 远程 计算 机 。 尽 管 SAS 软 件 不 直接 支持 SSH 功 能 ， 但 是 在 SAS 客 户 端 和 SAS 服 务 器 之 间 的 数据 流动 可 以 使 用 SSH 的 隧道 特性 。 利 用 SSH 的 端口 转 
发 (Port Forwarding) 方法 ，SSH 客 户 端 和 SSH 服 务 器 可 作为 SAAS 客户 端 和 SAS 服 务 器 之 间 的 代理 ， 这 样 就 可 使 用 隧道 通过 SAS 客 户 端 端口 向 SAS 服 务 器 端口 发 送信 息 了 。 


27.4.2 ”加 密 ODS PDF 文件 


SAS ODS (Output Delivery System， 输 出 交付 系统 ) 可 用 于 产生 PDF 输 出 。 当 PDF 文 件 不 使 用 密码 保护 时 ， 任 何 用 户 都 可 查看 和 编辑 PDF 文 件 。 但 是 ， 通 过 指定 ODFSECURITY 系 统 选 项 对 PDF 的 输 
出 文件 进行 密码 保护 后 ， 所 生成 的 PDF 文件 在 打开 时 就 会 要 求 提供 密码 。 


限制 和 人 允许 用 户 访问 、 组 合 、 复 制 、 修 改 ODS PDF 文件 的 系统 选项 包括 PDFACCESs|INOPDFACCESS、PDFASSEMBLYINOPDFASSEMBLY、PDFCOMMENTINOPDFCOMMENT、 
PDFCONTENTINOPDFCONTENT、 PDFCOPY|INOPDFCOPY、PDFFILELININOPDFFILEIN、PDFPASSWORD、PDFPRINT、PDFSECURITY。 各 系统 选项 详细 信息 请 参考 SAS 文 档 SAS System 


Options: Reference。 


27.4.3 ”SAS 加 密 系统 选 项 


如 果 客 户 端 计算 机 上 的 SAS 会 话 与 AS 服务 器 之 间 交 换 数据 ， 可 指定 该 SAS 会 话 执行 期 间 对 这 些 数 据 实施 加 密 的 SAS 系 统 选项 。 例 如 ， 如 果 SAS/CONNECT 客 户 端 连接 到 服务 器 上 的 Connect 
Spawner， 可 在 Connect Spawner 启 动 命令 中 指定 加 密 系统 选项 。 


SAS 提 供 的 加 密 系统 选项 ， 请 参考 SAS 文 档 Encryption in SAS 及 SAS System Options: Reference 进 行 学 习 。 


27.4.4 PWENCODE 过 程 


PWENCODE 过 程 使 用 户 能 够 对 密码 进行 编码 。 当 SAs 程 序 访 问 关 系 型 数据 库 管理 系统 和 各 种 SAs 服 务 器 (例如 SAS/CONNECT 服 务 器 、SAS/SHARE 服 务 器 、SAS IOM (Integrated Object Model, 
集成 对 象 模型 ) 服务 器 (SAS 元 数据 服务 器 ) 等 ) 时 ， 在 SAs 程 序 中 可 使 用 所 编码 的 密码 替换 明文 密码 。 


PWENCODE 过 程 的 基本 形式 如 下 : 














PROC PWENCODE IN= "密码 ' <OUT= 文 件 引 用 > <METHOD= 编 码 方法 >; 
RUN 





























其 中 
.IN= 指 定 密码 明文 。 
-OUT= 指 定 所 编码 的 密码 保存 的 外 部 文件 的 文件 引用 。 该 选项 为 可 选 ， 不 指定 时 ， 所 编码 的 密码 默认 输出 到 SAS 日 志 中 。 
` METHOD= 指 定编 码 方法 。 该 选项 为 可 选 ， 不 指定 时 ， 黑 认 使 用 sas002 编 码 。 当 Base SAS 软 件 中 包含 SAS/SECURE 时 ， 可 将 其 设置 为 sas003 或 sas004。 


下 面 为 对 密码 进行 编码 的 示例 代码 : 


proc pwencode in='mypasswd'; 
run; 


所 编码 的 密码 输出 在 SAs 日 志 中 ， 如 图 27.20 所 示 。 


日 志 - (无 标题 ) 


proc pwencode 1N=MM 


Fn; 


[SASDD2IFDOAIBAIN AIDFSB202F2139254738F7E 





图 27.20 ”PWENCODE 过 程 日 志 
日 志 中 显示 编码 后 的 密码 为 {SAS002}F58A36490A1DF8B202F2139254738F7E。 


下 面 为 在 SAS 程 序 中 使 用 编码 的 密码 的 示例 : 


libname sqllib odbc dsn=SQLServer user=testuser 
passworgd="" {SAS002}F58A36490A1DF8B202F2139254738F7E"; 














27.5 ”安全 性 审计 

系统 的 审计 功能 可 确保 用 户 行为 的 可 问 责 性 ， 并 且 可 验证 安全 策略 是 否 已 经 被 应 用 ， 同 时 ， 还 能 够 将 审计 信息 用 作 调 查 工具 。 通 常 ， 安 全 性 系统 通过 记录 用 户 、 系 统 和 应 用 程序 的 活动 来 跟踪 可 问 责 
性 。SAS 提 供 了 安全 性 报告 宏 、SAS 日 志 模 块 ， 并 使 用 LOG4J 等 审计 功能 和 机 制 来 完成 这 些 记录 、。 

此 外 ， 通 过 检查 性 能 信息 或 某 些 类 型 的 错误 和 条 件 ， 审 计 跟 踪 还 可 用 于 验证 系统 的 健康 状况 。SAS 审 计 性 能 测量 包 以 报表 的 形式 展示 SAS 环 境 的 审计 性 能 相关 的 信息 及 SAS 环 境 运行 状态 。 
27.5.1 SAS 安全 性 报告 宏 

安全 性 报告 用 于 获取 SAS 环 境 的 安全 性 配置 ， 并 确定 用 户 如 何 访 问 被 配置 的 受 安全 性 保护 的 资源 。 这 种 报告 帮助 保证 既定 的 安全 性 计划 在 发 挥 作用 ， 并 且 在 如 预期 地 保护 资源 ， 还 能 帮助 追溯 可 能 存在 
问题 的 访问 。 


用 作 安 全 性 报告 的 SAS 宏 可 用 于 连接 到 元 数据 服务 器 ， 并 使 用 SAS 元 数据 服务 器 的 安全 性 管理 API 来 抽取 授权 信息 。 安 全 性 报告 用 于 创建 元 数据 层 访问 控制 设置 的 快照 ， 所 产生 的 安全 信息 可 用 于 产生 关 
于 当前 安全 性 设置 的 报表 ， 或 者 作为 跨 时 间 比 较 设置 的 数据 点 。 


安全 性 报告 的 第 一 个 任务 是 抽取 、 过 滤 并 格式 化 指定 的 身份 (identity) 、 权 限 和 对 象 的 授权 数据 。SAS 提 供 了 宏 来 帮助 执行 该 任务 。 下 面 的 示例 代码 使 用 主 安全 报告 安 %MDSECDS 为 指定 的 文件 夹 及 
其 内 容 生成 一 组 授权 数据 集 ， 并 放 在 临时 逻辑 库 中 。 授 权 数 据 集 包 括 work.mdsecds join、work.mdsecds objs、work.mdsecds pconds、work.mdsecds permsl、work.mdsecds permsw。 





/* connect to the metadata server */ 
options 
metaserver=metahost .corp.com 
metauser="sasdemo" 
metapass="MyPassword"; 
/* run the main report macro against a target folder */ 
smdsecds (folder="\Shared Data") ， 
run; 




















安全 性 报告 中 的 第 二 个 任务 是 基于 这 些 授权 数据 集 创建 报表 。 例 如 ， 下 面 的 示例 代码 打 E 了 前 面 示例 生成 的 授权 数据 集 组 中 的 主 表 (work.mdsecds join) 的 部 分 数据 。 


proc Print data=work.mdsecds join noobs; 
var objname publictype identityname WriteMetadata; 
run; 


上 述 代码 的 部 分 输出 如 图 27.21 所 示 。 


DbiNarme PublicTYpe identityname WriteMetadata 
DMAGECR Table PUBLIC Denied Indirecthy 
DMAGECR Table SAS System Services | Denied Indirecthy 
DMAGECR Table SASAdministrators Granted Indireetly 
DMAGECR Table SASUSERS Deniedg Indirecthy 
HMEQ Table PUBLIC Denied Indirecthy 
HMEQ Table SAS System Services | Denied Indirecthy 
HMEQ Table SASAdministrators Granted Indirectly 
HMEQ Table SASUSERS Denied Indirecthy 
SAsSApp -= SASDATA Library PUBLIGC Dented Indirecthy 
App - SASDATA Library SAS System Services | Denied Indirecthy 
SASApp - SASDATA Library SASAdministrators Granted Indirectly 
SASApp - SASDATA Library SASUSERS Denied Indirectly 
shared Data Folder PUBLIC Denied Indirecthy 
shared Data Folder SAS System Services | Denied Indirecthy 
Shared Data Folder SASAdministrators Granted Indirectly 
Shared Data Folder SASUSERS Denred Indirecthy 





图 27.21 mdsecds_join 的 部 分 数据 


因为 主 安 全 报告 安 %MDSECDS 的 输出 是 SAs 数 据 集 ， 所 以 可 以 通过 使 用 SAs 报 表 技 术 来 创建 更 为 高 级 的 报表 ， 例 如 使 用 授权 数据 集 作 为 数据 源 创建 信息 映射 ， 接 着 使 用 ?As Web Report Studio 来 创建 
基于 该 信息 映射 的 报表 ， 或 编写 SAS ODS 代码 基于 授权 数据 集 来 构建 HTML 报 表 等 。 


关于 SAS 安 全 性 报告 宏 更 为 详细 的 信息 ， 请 参考 SAS 文 档 SAS Intelligence Platform: Security Administration Guide。 


27.5.2 ”SAS 日 志 模 块 


SAS 日 志 模 块 (facility) 用 于 收集 、 分 类 和 过 滤 SAs 服 务 器 环境 和 SAs 编 程 环境 中 的 日 志 消息 ， 并 且 它 会 将 日 志 消 息 写 入 各 种 输出 设备 的 框架 。 该 日 志 模块 支持 问题 诊断 与 解决 、 性 能 和 容量 管理 ， 以 及 
审计 和 合 规 。 


SAS 日 志 模 块 基于 预定 的 消息 类 别 记录 消息 ， 例 如 Admin 类 别 表示 管理 性 消息 ，App 类 别 表示 应 用 程序 消息 ，Perf 类 别 表 示 性 能 消息 。 每 种 类 别 的 消息 能 够 同时 写 入 文件 、 控 制 台 和 其 他 位 置 。 日 志 模 
块 可 根据 下 面 的 阔 值 过 滤 消 息 : TRACE、DEBUG、INFO、WARN、ERROR 和 FATAL。 日 志 模块 由 大 多 数 SAs 服 务 器 进程 使 用 ， 在 SAs 程 序 中 也 可 以 使 用 。 


性 能 相关 的 日 志 事件 可 以 被 ARM (Application Response Measurement) 4.0 处 理 。 
加 注意 “SAS 日 志 模 块 是 与 AS 日 志 不 同 的 SAS 内 部 日 志 系 统 。 传 统 的 SAS 日 志 只 显示 SAS 程 序 和 全 局 语句 执行 结果 的 信息 、 警 告 和 错误 。 
1.SAS 服 务 器 的 日 志 


SAS 智 能 分 析 平 台 使 用 标准 的 SAS 日 志 模 块 来 执行 SAS 服 务 器 的 日 志 记 录 。 每 种 服务 器 都 具有 一 个 日 志 配 置 文件 ， 可 控制 该 服务 器 的 日 志文 件 位 置 、 内 容 以 及 格式 。SAS Deployment Wizard 提 供 了 
SAS 服 务 器 的 默认 日 志 配 置 文件 ， 需 要 时 可 修改 这 些 文件 来 调整 日 志 配 置 ， 也 可 以 通过 SAS Management Console 的 服务 器 管理 来 动态 调整 日 志 记录 级 别 。 


2.SAS 程 序 中 使 用 SAS 日 志 模 块 


SAS 语 言 使 用 户 能 够 在 DATA 步 (函数 或 DATA 步 组 件 对 象 ) 和 宏 程序 中 使 用 SAS 日 志 模 块 。 如 果 在 SAS 程 序 中 需要 记录 任何 诊断 级 别 的 消息 ， 那 么 其 中 必须 包括 日 志 事 件 (Event) 。 这 些 诊断 级 别 从 低 
到 高 为 TRACE、TRACE、DEBUG、INFO、WARN、ERROR 和 FATAL。SAS 日 志 模块 主要 包括 如 下 组 件 。 


:日志 模 块 函 数 : 在 DATA 步 中 可 使 用 3 个 日 志 模 块 函数 ，LOG4SAS_APPENDER、LOG4SAS_LOGGER 和 LOG4SAS_LOGENVENT,， 分 别 用 于 创建 Appender、Loggetr 和 记录 日 志 消 息 。 


* 组 件 对 象 : SAS 提 供 了 两 个 预定 义 的 组 件 对 象 (Logget 对 象 和 Appender 对 象 ) ， 可 用 于 在 DATA 步 中 访问 SAS 日 志 模 块 。 这 两 个 组 件 对 象 接口 使 用 户 能 够 记录 日 志 事件 ， 并 将 这 些 事件 写 入 合适 的 位 


“日 志 自 动 调用 宏 : 如 果 需 要 使 用 日 志 自 动 调 用 宏 ， 就 必须 初始 化 SAS 程 序 的 日 志 模块 。 为 了 在 SAS 中 自动 调用 宏 ， 必 须 设 置 系统 选项 MAUTOSOURCE， 并 在 SAS 处 理 任 何其 他 上 日志 模块 自动 调用 宏 之 
前 ， 需 要 先 调用 宏 %LOG4SAS。 当 SAS 启 动 时 设置 该 选项 ， 其 后 将 不 再 要 求 其 他 操作 ， 除 非 该 选项 被 关 掉 。 


27.5.3 Web 应 用 程序 的 日 志 


SAS Web 应 用 程序 使 用 LOG4J (Apache 的 一 个 开放 源 代码 项 目 ) 来 记录 日 志 。 每 个 Web 应 用 程序 开始 运行 时 ，SAs 从 sas-config-diNLev1\WebXCommonNLogConfig 读 取 该 应 用 程序 的 LOG4J 配 置 
文件 。 在 读 取 LOG4J 配 置 后 ， 允 许 动态 日 志 更 改 的 应 用 程序 检查 在 SAs Web Administration Console 设 置 的 修改 。 


27.5.4 SAS 审计 性 能 测量 包 
审计 材料 和 日 志文 件 包含 了 大 量 信息 ， 更 重要 的 是 ， 它 以 一 种 有 益 且 易于 理解 的 方式 来 解释 和 呈现 这 些 信息 。SAS APM (Audit，Performance and Measurement， 审 计 、 性 能 和 测量 ) 包 是 由 SAS 


提供 的 为 企业 配置 的 供 客户 下 载 、 安 装 ， 并 以 易于 理解 的 报表 形式 展示 SAS 环 境 信息 的 工具 集 。SAS APM 包 还 允许 SAS Enterprise BI 站 点 监视 SAS 9BI| 架 构 的 状态 ， 实 施 合 规 审 计 认 证 报告 ， 以 及 报告 SAS 
9BI 分 析 服 务 器 环境 的 性 能 和 可 使 用 性 等 。 


SAS APM 包 的 特征 和 功能 是 通过 一 组 SAs 语 言 程序 、 逻 辑 库 和 操作 系统 特定 的 脚本 实现 的 ， 它 主要 提供 了 以 下 3 类 报表 特性 : 


. 元 数据 服务 器 审计 报告 ， 包 括 管理 性 的 授权 和 认证 修改 、 管 理 员 组 和 用 户 ID 访问 控 制 修改 、 用 户 ID 认证 和 授权 模式 ， 以 及 用 户 认证 和 密码 失败 尝试 等 。 图 27.22 和 图 27.23 分 别 为 部 署 了 SAS APM 的 SAS 
环境 的 审计 及 性 能 报告 汇总 示例 ， 其 中 展示 了 元 数据 服务 器 审计 中 的 访问 控制 变更 报告 。 


SAS 9.4 Enterprise Bl Server Reports 


Report URL Report Description 


Access Control Changes 
Administrators 
Authentication Errors 
Group Changes 
Login Not Authonzed 
User ID's Added 
jseridsRemoved html User ID's Removed 
Performance Reports 
Amriactotats html Artifact Usage Time Statistics 
Artifact Usage During Business Hours 
Armtifact Usage by Shi 人 Hours 
OLAP Lube Usage by User 














图 27.22 ”审计 及 性 能 报告 汇总 


Access Control Changes for All 


sasirusiEsaspw | 03JUL2012.17.03.10716| A53PRR20 AJOOONSS |T MANAGEMENT SOLUTIONS Permissions Tree |2012-07-03T17:03-10 716 HFO [00003886] 69.sasirustfsaspw - Access Control change on ObjectType=Tree, 
| | Name=IT LAMAGEMENT SOLUTIONS Permssions Tree, Obfd=A53PRAZ0.AJ0000S6. 


| 03JUL2012:.170310.721 ASIPRR20.AJOOOOS7 || ST Tiss | 2012-07_03T17:03-10,721 HFO [W0003886] 89-sastrust@saspw - ACcees Conirol Change on ObjectType=Tres, 


03JUL2012:17:03-10.725 上 53PRR20 AJOONISS | CO l | Tn 2012-07-03T17.03:10 .725 HFO [M0003886] 69-503trust@ sarpy =- Access Conirol change on ObiectType=Tree, 
| Mime=CORE USER NH TERFACE Permesnns Iree Oi=ASIPHRRA2D AJOOO0SS. 
03JUL2012:17:03:10.728 | A53PAR20 AJO000S9 |U 加 | | a012-07-03T17.03:10 ,728 NFO [00003888] 69-5astrust@saspw - Access Conitrol change on ObiectType=Tree, 
| 03JUL2012:17:03-10.731 53PRRD AUJD000SA | CL TsEH NT | 本 SS T a01207-03T17.03-10.731 NFO [M0003886] 695astrust@saspw = Access Control change on ObiectType=Tree. 
| O03JUL2012:7:03:10.734 | AS3PRR2OAJONDNISE | CE DASHBOAF | 2012.07-03T17:03-10.734 HFO [O00003888] 69-aastruallaasp - Accaas Conlrol Change on UbiectTypenTree, 
| i Name=BUSMESS HTELLIGENCE DASHBOARD Permissions Tree, Objd=ASIPAR2D AJ0000S6. 
OUL20N2 T0073 B53PRR20 AJONDSL | | | | | | 2012-07-03T17:03:10.737 HFO [W0003888] 69-5a3trustB asp - ACCEss COntrol re OhiectrypesTres， 
i Mame=PUBLICATIONS TECHNOLOG'Y DEVELOPMENT Permssions Trae, Objd=A53 
| oaJUL20 12:17:03-10.740 | 53PRR20 ASD | | 2 .740 HFO pi 9 sastrusibsaspw - ACCEss Control Change on es 
| T 个 下 
03JUL2012 TFT03 DOT43 | B53PRRZ0 AJO0DEE ENTERPREE COMWPUTING MANIAGEMNENT | 2012-07-03T17:03:10.743 HFO [O0003688] 89-S0urstt asp - ACCess Conlrol change On OblectType=Tree, 
Permssins Tree ‘ NamesENTERPRISE COMPUTHG MANAGEMENT Permssions Tree DbdaAsIPRAR2D AJOOODNSE. 
OUL202.17.030.7 BSPAR2O AJO0NOSF | NPUT OUTPUT TESTIHG Permssions Tres | 2012-07_03T17- 0 .7 NFO [00003E86] 69.saatrust@sasp - Accsas Conirol change on OblectType=Tres, 
| Name=HAUT DUTRUT TESTHG Permissions Tree, OleASSIPRA2D ADOOOSF. 


| | 
03JUL2012:17:03:10.749 点 53PRR20 AI000IEE ENTERPREE DATA NTEGRATION Permssions 2012 .07_.03T17- 03-10.749 NFO [M003886] 659nsastrust 本 sasp - Access Conirol change en OblectType=Tree, 
Te | Name=ENTERPRISE DATA NTEGRATION permissions Tree, DObji=As3PRR20AJO000SS. 





























图 27.23 ”访问 控制 变更 报告 


. SAS 分 析 服 务 器 使 用 报告 ， 包 括 元 数据 逻辑 库 报告 、SAS 过 程 和 DATA 步 报告 、SAS OLAP 服 务 器 立方 体 使 用 情况 、SAS 存 储 过 程 服务 器 使 用 情况 和 用 户 报告 ， 以 及 SAS 分 析 服 务 器 处 理 器 使 用 情况 报告 
等 。 图 27.24 和 图 27.25 分 别 给 出 了 一 段 时 间 内 访问 SAS 工 作 区 服务 器 排名 前 十 的 用 户 情况 报告 (部 分 ) ， 以 及 工作 区 服务 器 执行 的 DATA 步 和 SAS 过 程 的 使 用 情况 报告 示例 。 


SAS 9.4 Workspace Server Top 10 Users by Sessions for 99 Weekl(s) 





ee 76131| ae3| 
we we 


















































11JUL2013 


EE EE EE I 
GranaTom | | a07| a77390607| 76861| 304224| i124792| 25361E10| 


Generated by the SAS System on 25JUL2013 at 11:09 AM 
Refer to SAS 9.4 ARM Default User Metncs 
for more information pertaining to the Session metrics. 





图 27.24 访问 工作 区 服务 器 前 十 用 户 


SAS94Procedure Usage for 99 Weekls) 


procedure 






加 SSappworkspaceSener 


Bar art of procec 
Generated by the SAS System on 25JUL2013 at 11-09 AM 


SAS94Procedure Usage for 99 Weekls) 














图 27.25 ”工作 区 服务 器 执行 的 DATA 步 和 和 SAS 过程 使 用 情况 报告 


“SAS 环境 状态 报告 ， 包 括 Web 应 用 程序 服务 器 和 服务 可 用 性 、 分 析 服 务 器 层 可 用 性 、 分 析 服 务 器 响应 时 间 报 告 、 失 败 状 态 条 件 的 实时 报警 特征 等 。 图 27.26 给 出 了 SAS 环 境 中 SAS 应 用 服务 器 及 Web 应 用 
程序 状态 报告 。 


SAS 9.4 Enterprise Bl Server and Web Tier Status Report: 
23JUL2013;14:05 


Monitoring server Name Status | Validated 


UL2013.14:05:33.73 
23JUL2013-14:05:33.36 
UL2013-14.:05:33.30 





23JUL2013:14:05;33.66 
23JUL2013:14:05:33.41 
23JUL2013: 必 :05:;33.69 
23JUL2013-14:05:33.57 
23JUL2013:14:05:33.52 





23JUL2013-14:06:32.27 





aUL2013-14:08:32.39 
23JUL2013-14:05:32 85 
2UL2013:14:05:32.90 
23JUL2013-14:05:33 28 





1 | 23JUL2013-14:05;32.21 





图 27.26 ”SAS 环境 状态 报告 


SAS APM 包 还 允许 站 点 管理 员 创 建 和 部 署 框架 来 定制 报表 扩展 器 功能 ， 从 而 满足 实时 状态 报告 的 操作 业务 需求 。 此 外 ， 信 息 技术 (Information Technology，IT) 和 业务 单元 组 织 可 以 使 用 这 些 报表 
去 跟踪 分 析 服 务 的 使 用 情况 和 环境 用 户 的 使 用 情况 ， 同 时 ， 还 可 以 分 析 SAs 过 程 、SAs 人 存储 过 程 以 及 SAs 数 据 逻 辑 库 的 访问 。 


27.6 “本章 小 结 


本 章 简 要 介绍 了 SAS 智 能 平台 安全 性 相关 的 主要 特征 ， 包 括 身 份 标识 、 身 份 验 证 、 授 权 、 加 密 与 审计 功能 。 
* 身份 标识 。SAS 提 供 了 用 户 和 组 管理 登录 凭证 ， 并 且 提 供 了 角色 来 控制 对 应 用 程序 功能 的 访问 。 
“ 验证 。SAS 支 持 多 种 验证 机 制 ， 包 括 主机 认证 、 令 牌 认证 、LDAP 集 成 认证 、Web 认 证 、IWA 等 ， 以 及 多 种 单 点 登录 机 制 。SAS 还 可 以 与 第 三 方 安 全 产品 集成 ， 以 满足 不 同 的 身份 验证 需要 。 
* 授权 。SAS 主 要 基于 元 数据 授权 层 来 控制 对 SAS 对 象 的 访问 ， 以 及 基于 过 滤器 来 对 数据 进行 细 粒 度 访问 。 
* 加 密 。SAS 提 供 了 对 传输 中 数据 和 静态 数据 的 加 密 方 法 。 
. 安全 性 审计 。SAS 提 供 了 安全 性 报告 宏 、SAS 日 志 模 块 、LOG4] 及 APM 包 等 审计 功能 和 机 制 。 


安全 管理 是 SAs 智 能 平台 管理 的 一 个 重要 组 成 部 分 ， 仔 细 阅 读本 章 的 内 容 即 可 以 快速 全 面 地 理解 SAs 智 能 平台 的 必要 知识 ， 有 助 于 深入 学 习 更 加 详细 的 资料 。 


第 28 草 ”SAS 智能 平台 的 高 可 用 性 


高 可 用 性 是 当 系统 软件 或 硬件 发 生 故 障 时 ， 保 持 系统 和 应 用 程序 仍然 可 以 操作 和 访问 的 机 制 。 高 可 用 性 (High-availability，HA) 与 灾难 恢复 (Disaster Discovery) 的 区 别 在 于 : 高 可 用 性 通常 集中 在 
通过 提高 系统 抗 故 障 能 力 来 最 小 化 停机 时 间 ; 灾难 恢复 是 指 在 系统 发 生 故 障 、 停 机 或 灾难 发 生 后 恢复 系统 的 方法 。 


在 大 型 的 商业 系统 设计 中 ， 在 考虑 高 可 用 性 和 安全 性 时 ， 往 往 会 分 为 两 个 阶段 进行 考虑 。 第 一 个 阶段 是 回答 和 解决 可 行 性 的 问题 ， 也 就 是 说 ， 首 先 要 明确 所 要 求 的 设计 目标 在 技术 上 或 成 本 上 是 否 是 可 


以 实现 的 。 第 二 个 阶段 才 是 如 何 去 实 施 ， 也 就 是 说 ， 如 果 是 可 行 的 ， 那 么 接 下 来 才 是 如 何 去 实 现 。 本 章 主要 是 面向 第 一 阶段 ， 介 绍 高 可 用 性 的 相关 概念 ， 理 解 SAS 可 以 实现 什么 样 的 高 可 用 性 设计 ， 应 用 的 
技术 是 什么 ， 这 些 知识 对 合理 设计 一 个 大 规模 SAS 应 用 是 至 关 重 要 的 。 对 于 实现 这 些 设计 的 详细 方法 和 步骤 ， 建 议 联系 当地 SAS 公 司 的 咨询 顾问 获取 相应 的 技术 支持 和 详细 的 技术 资料 。 


28.1 ”高 可 用 性 相关 概念 
高 可 用 性 的 相关 概念 包括 主动 /被 动 设置 、 主 动 /主动 设置 、 故 障 转移 、 负 载 均 衡 等 。 在 实施 高 可 用 技术 时 ， 通 常 还 需要 使 用 共享 存储 ， 这 里 也 会 对 其 一 并 进行 介绍 。 
1. 主 动 /被 动 设置 
主动 /被 动 设置 (Active/Passive Setup) 是 一 种 包括 多 个 服务 器 的 集群 配置 ， 在 该 集群 中 ， 在 故障 转移 发 生前 ， 由 主 (primary) 节点 处 理 用 户 请 求 ， 在 故障 转移 发 生 后 ， 由 备用 (stand-by) 节点 接 
管用 户 请 求 。 
2. 主 动 /主动 设置 


主动 /主动 设置 (Active/Active Setup) 也 是 一 种 包括 多 个 服务 器 的 集群 配置 。 在 该 集群 中 ， 所 有 的 服务 器 同时 处 理 用 户 请 求 。 当 集群 中 的 节点 发 生 软件 或 硬件 故障 时 ， 分 配 到 故障 节点 的 处 理 任务 和 
流量 将 会 被 转移 给 现 有 的 节点 或 在 剩余 的 节点 间 进 行 负载 均衡 。 这 通常 要 求 各 个 节点 使 用 同 构 的 软件 配置 。 


主动 /主动 方法 通常 可 以 提供 比 主动 /被 动 方法 更 高 级 别 的 可 用 性 和 更 少 的 停机 时 间 。 然 而 ， 这 种 可 用 性 的 增加 由 于 需要 专门 的 软件 或 硬件 设备 ， 以 及 额外 的 产品 许可 ， 通 常 使 得 成 本 较 高 。 
3. 故 障 转移 


集群 中 的 主 服务 器 节点 发 生 故 障 时 ， 响 应 客户 端 请 求 的 应 用 程序 或 服务 从 主 服务 器 切换 到 备用 服务 器 的 过 程 称 为 故障 转移 (Failover) 。 这 种 切换 通常 是 由 集群 软件 或 高 可 用 性 软件 自动 执行 的 。 


在 故障 转移 集群 中 ， 某 一 时 刻 只 有 一 个 服务 器 上 的 应 用 程序 或 服务 处 于 活动 状态 。 在 主 服务 器 发 生 故 障 前 ， 由 应 用 程序 或 服务 运行 在 主 服务 器 上 提供 服务 。 在 主 服务 故障 发 生 时 ， 该 应 用 程序 或 服务 在 
另 一 个 服务 器 重新 启动 ， 以 响应 后 续 请 求 。 


在 故障 转移 过 程 发 生 后 ， 还 有 一 个 可 能 发 生 的 过 程 叫 故 障 恢复 (Failback) 。 故 障 恢复 是 系统 从 故障 转移 后 的 状态 恢复 到 初始 状态 (故障 前 ) 的 过 程 。 在 故障 转移 完成 之 后 ， 如 果 导 致 主 服务 器 失败 的 
根源 被 修复 了 ， 应 用 程序 或 服务 及 其 相关 资源 将 切换 回 主 服务 器 。 该 过 程 通常 由 相应 的 软件 或 硬件 与 故障 转移 一 起 提供 并 自动 完成 。 


4. 负 载 均衡 
负载 均衡 (Load-balancing) 是 将 工作 负载 分 发 到 多 人 台 计 算 机 或 计算 机 集群 的 过 程 。 与 故障 转移 不 同 ， 负 载 均衡 的 主要 目的 是 提高 性 能 ， 例 如 提高 响应 速度 ， 使 系统 能 够 处 理 更 多 的 并 发 请 求 等 。 


在 负载 均衡 配置 中 ， 通 常 存在 多 个 活动 的 服务 器 。 工 作 负载 会 根据 指定 的 负载 均衡 算法 被 分 发 到 这 些 服 务 器 中 。 当 一 台 服 务 器 发 生 故 障 时 ， 在 适当 的 配置 下， 后 续 的 请 求 会 继续 分 发 到 其 他 可 用 的 节 
点 。 因 此 ， 在 提高 性 能 的 同时 ， 负 载 均衡 机 制 避免 了 因为 单 点 故障 而 可 能 造成 的 系统 失败 ， 所 以 也 提高 了 整个 系统 的 可 用 性 。 


5. 共 享 存储 
共享 存储 (Shared Storage) 是 可 以 由 同一 网 络 内 的 多 个 服务 器 同时 访问 的 存储 。 


常用 的 共享 存储 包括 共享 文件 系统 (file system) 存储 和 共享 块 (block) 存储 。 共 享 文件 系统 存储 通常 由 网 络 附加 存储 (Network Attached Storage，NAS) 实现 ; 共享 块 存储 通常 由 存储 区 域 网 络 
(Storage Attached Network，SAN) 实现 。 


共享 存储 在 帮助 维护 应 用 程序 的 可 用 性 方面 扮演 着 重要 角色 。 如 果 关 键 的 数据 或 文件 存储 在 服务 器 直 连 存储 (Direct Attached Storage，DAS) 上 ， 当 该 服务 器 出 现 故障 时 ， 这 些 数据 都 将 不 可 用 。 然 
而 ,如果 数据 存储 在 共享 存储 上 ， 当 一 台 服 务 器 出 现 故 障 时 ， 还 可 以 通过 其 他 服务 器 进行 访问 。 这 意味 着 ， 在 集群 配置 中 ， 可 以 在 集群 中 的 另 一 个 节点 上 重新 启动 依赖 于 这 些 文件 和 数据 的 应 用 程序 。 


此 外 ， 使 用 共享 存储 时 ， 保 持 共享 存储 的 可 用 性 非常 重要 。 这 通常 涉及 重复 存储 、 同 步 机 制 、 监 控 及 共享 存储 故障 转移 等 技术 。 有 兴趣 的 读者 可 自行 进行 学 习 。 


28.2 ”SAS 高 可 用 性 方法 概述 


图 28.1 提 供 了 SAS 智 能 平台 各 层 的 组 件 所 支持 的 高 可 用 性 配置 模式 ， 以 及 相关 的 方法 和 技术 。SAS 智 能 平台 的 各 层 及 其 组 件 可 参考 第 25 章 的 图 25.1。 
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图 28.1 ”SAS 智能 平台 可 用 性 概念 和 技术 概要 图 





本 节 主 要 介绍 常用 的 可 为 所 有 SAS 组 件 提 供 高 可 用 性 的 方法 ， 包 括 高 可 用 集群 (High-availabiity Cluster) 和 动态 迁移 (Live Migration) ， 以 及 SAS 提 供 的 涉及 业务 连续 性 的 备份 和 恢复 技术 。 关 于 其 
他 可 为 多 个 组 件 提高 可 用 性 的 方法 会 在 本 章 后 续 部 分 进行 介绍 。 


28.2.1 高 可 用 集群 


在 系统 部 分 组 件 发 生 故 障 时 ， 高 可 用 性 集群 (HA 集群 ) 利用 集群 中 的 元 余 资 源 来 保证 系统 仍然 可 以 提供 服务 。 HA 集群 通常 用 于 关键 数 据 库 、 网 络 文件 共享 和 业务 应 用 程序 。SAs 服 务 器 、spawners 和 
其 他 服务 也 可 以 部 署 在 高 可 用 性 集群 中 ， 通 过 高 可 用 集群 提供 的 故障 转移 保护 可 减少 停机 时 间 ， 从 而 提高 可 用 性 。 


高 可 用 集群 可 使 用 Platform EGO (SAS Grid Manager 的 组 件 ) 或 其 他 高 可 用 软件 实现 ， 如 Red Hat Enterprise Linux Cluster Suite、Microsoft Windows Cluster Services、Oracle Solaris 
Cluster、Veritas Cluster Server 等 。 高 可 用 性 软件 安装 在 多 台 计 算 机 上 ， 可 将 这 些 计算 机 组 建成 一 个 高 可 用 性 集群 ， 以 提供 对 应 用 程序 或 服务 的 保护 。 通 过 HA 集群 保护 SAS 服 务 (或 服务 器 ) 的 过 程 如 
下 : 


1) HA 软件 通过 操作 系统 服务 或 监控 脚本 监控 SAS 服 务 。 


2) 当 HA 软 件 监测 到 SAS 服 务 状态 不 正常 (因为 硬件 或 软件 故障 ) 时 ，HA 软 件 尝试 在 当前 主机 上 重新 启动 该 服务 。 如 果 重 启 失败 ，HA 软 件 将 SAS 服 务 依 赖 的 所 有 资源 ， 例 如 文件 系统 、IP 地 址 或 集群 名 
称 等 ， 切 换 到 集群 中 的 另 一 台 计 算 机 ， 并 在 该 计算 机 上 重启 服务 。 


3) 当 故 障 转移 过 程 完 成 之 后 ， 来 自 客户 端的 请 求 被 重 定向 到 正在 运行 SAS 服 务 的 计算 机 上 。 
在 HA 集群 环境 中 安装 和 配置 SAS 时 必须 注意 以 下 两 点 : 
. 当 集 群 主 机 操作 系统 为 Windows 时 ， 必 须 在 集群 中 的 所 有 主机 上 安装 SAS， 且 安装 路 径 必 须 完 全 相同 ， 然 后 在 主 节点 上 将 SAS 配 置 在 所 有 的 集群 节点 都 可 以 访问 的 共享 存储 中 。 


. 当 集 群 主 机 操作 系统 为 UNIX 时 ，SAS 安 装 文件 可 以 安装 在 共享 存储 中 ， 以 简化 其 安装 和 维护 过 程 ， 也 可 以 在 多 个 节点 上 安装 SAS。 同 样 ，SAS 配 置 文件 也 需 存 储 在 所 有 集群 节点 都 可 以 访问 的 共享 存储 


通常 ，HA 集 群 需要 仲裁 (quorum) 设备 。 根 据 不 同 的 HA 软件 ， 仲 裁 设备 可 选择 使 用 共享 文件 系统 或 共享 磁盘 的 分 区 


28.2.2 ”动态 迁移 


许多 软件 产品 ， 常 见 的 例如 VMware VMotion 和 IBM POWER， 提 供 了 基于 虚拟 化 技术 的 动态 迁移 解决 方案 。 动 态 迁 移 (Live Migration) 会 透明 地 将 正在 运行 的 虚拟 机 移动 到 另 一 服务 器 ， 而 不 中 断 
正在 处 理 的 工作 。 


VMware VMotion 是 VMware vSphere 产 品 套件 的 组 件 ， 可 以 将 正在 运行 的 虚拟 机 从 一 台 物 理 服务 器 实时 地 迁移 到 另 一 台 服 务 器 上 ， 能 够 实现 零 故障 时 间 、 持 续 服务 ， 以 及 交易 完整 性 。 

IBM POWER 系统 和 PowerVM 虚 拟 化 技术 了 提供 动态 分 区 迁移 (Live Partition Migration) 技术 ， 多 许 将 分 区 从 一 个 物理 服务 器 迁移 到 另 一 个 物理 服务 器 ， 且 不 会 中 断 正 在 执行 的 应 用 程序 。 
28.2.3 ”SAS 环 境 备份 和 恢复 

备份 (Backup) 是 指 对 重要 数据 或 系统 状态 进行 复制 ， 以 便 将 来 用 于 恢复 数据 或 系统 。 恢 复 (Restore) 是 指 通过 备份 将 系统 恢复 到 先前 状态 的 过 程 。 


1.SAS 部 署 备份 和 恢复 工具 


为 了 保证 安装 和 配置 后 SAS 智 能 分 析 平 台 在 系统 运行 时 的 完整 性 ， 需 要 建立 正式 的 定期 备份 。 在 SAS 9.4 中 ，SAS 的 部 署 备份 和 恢复 工具 (SAS Deployment Backup and Recovery Tool) 提供 了 集成 
的 备份 和 恢复 SAS 内 容 的 方法 。 该 工具 将 自动 备份 如 下 组 件 : 


. SAS 元 数据 服务 器 ， 包 括 元 数据 存储 库 、 存 储 库 管 理 器 ， 以 及 元 数据 服务 器 配置 文件 。SAS 元 数据 服务 器 本 身 带 有 备份 功能 ，SAS 部 署 备份 和 恢复 工具 就 是 调用 该 功能 实现 对 上 述 元 数据 服务 器 相关 文 
件 的 备份 的 。 


. SAS 每 个 服务 器 的 Data 目 录 、SAS Environment 目 录 ， 以 及 服务 器 的 配置 目录 。 


. SAS Content Server 存 储 库 。 
" 由 SAS Web Infrastructure Data Setvet 管 理 的 所 有 数据 库 。 也 可 以 通过 更 改 备份 配置 来 选择 备份 哪些 数据 库 。 
自 定义 目录 。 除 了 上 述 备 份 内 容 外 ， 在 该 工具 中 还 可 以 定义 其 他 需要 备份 的 目录 。 
请 参考 SAS 9.4Intelligence Platform: System Administration Guide 的 第 12 章 Best Practices for Backing Up and Restoring Your SAS Content 获 取 更 多 信息 
2. 元 数据 服务 器 备份 工具 
SAS 元 数据 服务 器 提供 了 基于 服务 器 的 备份 工具 ， 该 工具 会 根据 预定 周期 自动 对 元 数据 服务 器 进行 备份 。SAS 的 部 署 备 份 和 恢复 工具 就 是 调用 该 工具 对 元 数据 内 容 进行 备份 的 。 
请 参考 SAS 9.4Intelligence Platform: System Administration Guide 的 第 13 章 Backing Up and Recovering the SAS Metadata Server 获 取 更 多 信息 
3. 导 出 /导入 向 导 和 导出 /导入 批 处 理工 具 


除了 上 述 备 份 工 具 提 供 的 备份 方法 ，SAS 导 出 /导入 包 向 导 和 导出 /导入 批 处 理工 具 可 用 于 对 SAS 文 件 夹 或 SAS 文 件 夹 中 的 SAS 对 象 进行 备 份 和 恢复 。 在 一 些 SAS 应 用 程序 中 ， 例 如 SAS Management 
Console、SAS Data Integration Server 中 ， 可 选择 要 备份 的 SAS 对 象 ， 将 其 导出 为 SAAS 包 ， 需 要 时 还 可 将 其 导入 SAS 系 统 ， 以 实现 备份 和 恢复 功能 。 此 外 ，SAS 对 象 导出 /导入 功能 还 可 用 于 SAS 对 象 从 测试 
环境 到 生产 环境 的 迁移 等 。 


请 参考 SAS 9.4Intelligence Platform: System Administration Guide 的 第 12 章 Best Practices for Backing Up and Restoring Your SAS Content 获 取 更 加 详细 的 信息 。 


28.3 ”SAS 元 数据 服务 器 


在 SAS 9.4 之 前 ，SAS 元 数据 服务 器 的 高 可 用 性 只 能 通过 高 可 用 集群 提供 。 从 SAS 9.4 开 始 ，SAS 提 供 了 SAS 元 数据 服务 器 集群 (SAS Metadata Server Clustering) 机 制 来 提高 SAs 元 数据 服务 器 的 可 用 
性 。 同 样 ， 在 SAS 9.4 中 ，HA 和 集群 仍然 可 用 于 提供 SAS 元 数据 服务 器 的 故障 转移 保护 。 


本 节 首 先 介绍 SAS 元 数据 服务 器 集群 ， 接 着 对 元 数据 服务 器 集群 和 HA 集群 进行 简单 对 比 ， 最 后 给 出 了 当 元 数据 服务 器 单独 部 署 时 ， 在 该 层 安装 的 其 他 两 个 组 件 ， 这 两 个 组 件 可 用 于 提高 可 用 性 。 
28.3.1 “元 数据 服务 器 集群 


SAS 元 数据 服务 器 集群 是 由 3 个 或 多 个 主机 机 器 (节点 ) 组 成 的 集群 。 集 群 中 的 所 有 节点 都 被 配置 为 同等 的 元 数据 服务 器 。 当 集群 中 的 元 数据 服务 器 启动 时 ， 节 点 彼此 建立 通信 ， 其 中 一 个 节点 变 成 主 节 
点 ， 协 调集 群 中 的 活动 ， 而 其 他 节点 为 从 (slave) 节点 。 客 户 端 应 用 程序 与 集群 交互 的 方式 与 未 配置 为 集群 的 元 数据 服务 器 相同 。 主 节点 会 使 用 轮 询 算法 将 来 自 客户 端 应 用 程序 的 连接 分 发 到 各 个 从 节点 。 


集群 正常 工作 需要 集群 中 的 多 数 节点 处 于 活动 状态 ( 指 要 求 多 数 节点 上 元 数据 服务 器 实例 处 于 活动 状态 ) 。 这 称 为 仲裁 (Quorum) 规则 。 在 多 节点 的 集群 中 : 


“ 如 果 一 个 节点 停止 运行 后 仲裁 规则 仍然 满足 ， 那 么 元 数据 服务 器 可 以 继续 正常 工作 。 到 停止 运行 的 节点 上 的 连接 会 自动 转移 到 其 他 活动 的 节点 
当 活 动 的 节点 不 足以 满足 仲裁 规则 要 求 的 节点 数 时 ，SAS 元 数据 服务 器 会 暂停 ， 并 进入 离线 状态 ， 现 有 的 连接 会 保持 ， 但 是 不 能 这 些 连 接 访问 元 数据 ， 而 且 新 的 连接 不 被 允许 。 一 个 有 3 个 节点 的 


集群 可 以 容忍 一 个 节点 的 失败 。 
SAs 元 数据 服务 器 集群 可 以 在 初始 安装 和 配置 时 进行 配置 ， 也 可 以 在 配置 一 段 时 间 后 ， 再 添加 两 个 或 两 个 以 上 的 节点 ， 将 现 有 非 集群 的 元 数据 服务 器 转换 成 集群 的 元 数据 服务 器 。 


SAs 元 数据 服务 器 集群 目前 只 支持 Windows 和 UNIX 操 作 系统 ， 且 集群 中 的 所 有 节点 之 操作 系统 必须 相同 。 


28.3.2 ”提高 元 数据 服务 器 可 用 性 


SAS 元 数据 服务 器 集群 和 HA 集群 都 可 用 于 提高 元 数据 服务 器 的 可 用 性 。 表 28.1 比 较 了 这 两 种 方法 的 主要 特征 。 


表 28.1 SAS 元 数据 服务 器 集群 与 HA 集群 特征 比较 


SAS 元 数据 服务 颖 集群 HA 集群 


:模式 FE 动 / 主动 设置 E 动 / 被 动 设置 


一 一 大 (小 “ 丘 访 HEH ££ HH 
足 让 FT Ey 一 方 件 1 芭 








最 小 节点 数 2 
足 合 需 双 满 正 仲裁 项 册 和 需 呢 
各 万， 5 | 间 早 需 器 二 三 的 内 容 7 类 所 5 省 鱼 人 1 人 | SAS 同 0 首 件 


对 于 表 28.1 中 各 项 的 解释 如 下 : 


. SAS 元 数据 服务 器 集群 中 存在 多 个 元 数据 服务 器 实例 ， 主 节点 会 使 用 轮 循 算法 将 来 自 客户 端的 连接 请 求 分 发 到 各 个 从 节点 上 ; 而 在 HA 集群 中 ， 当 前 仅 一 个 服务 器 实例 响应 请 求 ， 仅 当 该 服务 器 故障 
时 ， 该 服务 才 会 自动 迁移 到 备用 节 


SAS 元 数据 服务 器 集群 不 依赖 于 任何 第 三 方 的 软件 ， 但 HA 集群 需要 使 用 HA 软件 来 创建 集群 。 


. 在 两 种 方法 中 ， 都 要 求 集群 满足 仲裁 规则 。 在 SAS 元 数据 服务 器 集群 中 ， 最 少 需要 3 个 节点 ， 此 时 ， 如 果 一 个 节点 或 节点 上 的 服务 器 发 生 故 障 ， 活 动 实例 和 故障 实例 会 形成 2: 1 的 局 面 ， 该 集群 仍然 正 
常 工作 。 相 比较 而 言 ， 在 HA 集群 中 ， 是 可 设置 额外 的 仲裁 设备 (根据 不 同 的 高 可 用 软件 ， 仲 裁 设备 可 以 为 共享 磁盘 分 区 或 者 共享 文件 系统 ) 来 参与 集群 的 ， 所 以 运行 SAS 服 务 的 最 小 节点 数 可 以 为 两 个 。 


. 配置 SAS 元 数据 服务 器 集群 时 ， 元 数据 备份 目录 必须 在 集群 中 的 各 个 节点 上 都 可 以 访问 ; 而 高 可 用 集群 则 至 少 要 求 将 SAS 配 置 文件 配置 在 共享 存储 上 。 
28.3.3 ”公共 组 件 

在 SAS 智 能 分 析 平 台中 ，SAS 部 署 向 导 会 默认 在 每 台 机 器 上 安装 SAS Environment Manager Agent 和 SAs Deployment Agent。HA 集 群 可 以 为 这 两 个 组 件 提供 可 用 性 。 
1.SAS Environment Manager Agent 


在 SAS 服 务 器 和 中 间 层 机 器 上 都 会 配置 SAS Environment Manager Agent 的 一 个 实例 。Agent 实 例 与 SAS Environment Manager 服 务 器 通信 ， 它 会 检测 每 个 代理 所 在 机 器 上 的 资源 ， 并 周期 性 地 将 资 
源 度量 值 报告 给 服务 器 。 由 于 不 是 关键 服务 ， 一 般 可 不 配置 高 可 用 性 。 如 果 需 要 ， 可 使 用 HA 集群 为 其 提供 故障 转移 保护 。 


2.SAs Deployment Agent 


在 创建 新 的 SAs 服 务 器 、 配 置 SAs Web Application 集 群 ， 以 及 使 用 SAS 部 署 备份 和 恢复 工具 进行 备份 和 恢复 SAS 内 容 时 ， 需 要 用 到 SAS Deployment Agent。 一 般 情 况 下 ， 该 代理 不 需要 一 直 保持 运 
行 ， 只 需要 在 执行 上 述 管理 性 活动 时 启动 即 可 。 如 果 要 求 配置 其 高 可 用 性 ， 可 使 用 HA 集群 提供 故障 转移 保护 。 


28.4 SAS 计算 层 


本 节 主 要 描述 可 为 SAS 智 能 分 析 平 台 计算 层 各 组 件 提供 高 可 用 的 方法 ， 包 括 SAS 计 算 服 务 器 的 负载 均衡 机 制 、SAS 网 格 计算 等 。 此 外 ， 本 节 后 面 还 介绍 了 当 软 件 或 硬件 发 生 故 障 导致 作业 运行 失败 时 ， 可 
帮助 提高 作业 重新 提交 执行 效率 的 选项 。 


除了 本 节 介绍 的 方法 外 ，HA 集 群 还 可 为 该 层 的 SAS 服 务 器 提供 故障 转移 保护 。 


28.4.1 ”SAS 计算 服务 器 负载 均衡 


SAS 提 供 了 配置 选项 来 启用 Workspace Server、Pooled Workspace Server、Stored Process Server 和 OLAP Server 的 负载 均衡 机 制 。 这 些 服务 器 的 负载 均衡 可 以 在 SAS 初 始 安装 和 配置 之 后 ， 再 根据 
需要 进行 配置 。 虽 然 负载 均衡 在 跨 多 个 服务 器 分 发 工作 负载 时 ， 其 主要 目标 是 提高 系统 性 ， 但 是 当 其 中 一 个 服务 器 故障 时 ， 工 作 负 载 就 会 被 分 发 到 其 他 可 用 的 服务 器 上 ， 这 也 就 提高 了 该 服务 器 的 可 用 性 。 


SAS Workspace Server、Pooled Workspace Server、Stored Process Server 的 负载 均衡 是 由 与 这 些 服务 器 相关 联 的 SAS Object Spawner 处 理 的 。 而 SASs OLAP Server 的 负载 均衡 由 SAS OLAP 
Server 自 行 处 理 。 


为 这 些 服务 器 配置 负载 均衡 的 过 程 如 下 : 

1) 为 每 个 计算 服务 器 和 spawner 创 建 多 个 实例 。 

2) 在 另 一 机 器 上 安装 对 应 SAS 组 件 ， 并 修改 一 些 配置 文件 。 

3) 将 该 计算 服务 器 转换 为 负载 均衡 模式 ， 并 设置 负载 均衡 算法 。 


配置 过 程 完 成 后 ， 工 作 负载 也 会 根据 指定 的 负载 均衡 算法 分 发 到 这 些 实例 上 。 当 一 个 服务 器 实例 故障 时 ， 提 和 交 的 作业 会 在 其 他 健康 的 服务 器 实例 上 执行 。 这 些 计算 服务 器 的 可 用 性 通过 这 一 过 程 得 到 了 


明 


提 


详细 配置 过 程 可 参考 SAS Intelligence Platform: Application Server Administration Guide 文 档 中 相应 的 章节 。 


28.4.2 ”SAS 网 格 计算 


SAS 网 格 计算 (Grid Computing) 环境 是 在 SAS Grid Manager (SAS 网 格 管理 器 ) 的 控制 下 ， 可 将 SAs 计 算 任务 分 布 到 网 络 上 的 多 个 计算 机 环境 上 。 因 为 SAs 网 格 是 配置 在 一 个 多 机 器 的 体系 架构 中 
运行 的 ， 所 以 不 存在 单 点 故障 。 作 业 可 在 当前 可 用 的 网 各 节点 上 进行 处 理 ， 如 果 单 个 节点 不 可 用 ， 其 他 节点 仍然 可 以 为 后 续 计 算 和 分 析 请 求 提供 服务 。 


SAS Grid Manager 中 包含 了 Platform LSF。 经 过 适当 的 配置 ，Platform LSF 的 组 件 Platform EGO 可 以 像 其 他 HA 软件 一 样 为 SAS 服 务 提 供 故 障 转移 的 能 力 。 


详情 请 参考 SAS Grid Computing in SAS 文 档 。 


28.4.3 ”提高 计算 层 组 件 可 用 性 


SAS 计 算 服 务 器 为 SAS 智 能 平台 提供 了 计算 、 数 据 服 务 ， 以 及 其 他 相关 的 分 析 功 能 。 本 节 介绍 可 为 SAAS 计 算 层 组 件 提高 可 用 性 的 技术 和 方法 。 除 本 节 介绍 的 提高 可 用 性 的 方法 外 ，HA 集 群 也 可 以 为 SAS 
智能 平台 的 所 有 组 件 提供 故障 转移 保护 。 


1.SAS Workspace Server、Pooled Workspace Server、 Stored Process Server 和 SAS OLAP Server 


标准 的 Workspace Server 和 Pooled Workspace Server 可 以 执行 由 SAS Data Integration Server 或 SAS Web Report Studio 等 SAS 客 户 端 产生 的 代码 。Stored Process Server 执 行 SAS 存 储 过 程 。 
SAS OLAP Server 执 行 并 处 理 MDX (Multidimensional Expressions Language， 多 维 表达 式 语言 ) ， 从 而 实现 查询 立方 体 的 功能 。 


SAS Workspace Server、Pooled Workspace Server、Stored Process Server 由 SAS Object Spawner 初 始 化 。Object Spawner 监 听 请 求 并 在 需要 时 启动 对 应 的 服务 器 响应 请 求 。SAS OLAP Server 
直接 处 理 M DX 查 询 ， 并 从 OLAP 立 方 体 中 返回 数据 。 这 些 服务 器 允许 多 个 会 话 同时 执行 ，SAS 计 算 服 务 器 负载 均衡 配置 避免 了 因 单 点 故障 造成 的 服务 中 断 ， 从 而 提高 了 这 些 服务 器 的 可 用 性 。 


HA 集群 也 可 用 来 为 这 些 服务 器 提供 故障 转移 保护 ， 以 提高 可 用 性 。 无 论 选择 哪 种 方式 ， 共 享 人 存储 都 是 必要 的 。 当 为 SAs Workspace Server、Pooled Workspace Server 和 stored Process Server 配 置 
高 可 用 性 时 ， 作 业 、 源 数据 、 目 标 数据 等 需要 使 用 的 资源 都 会 配置 在 共享 存储 中 ， 以 保证 集群 中 的 所 有 主机 都 能 够 访问 这 些 资 源 。 当 配置 OLAP Server 的 高 可 用 性 时 ， 立 方 体 的 物理 文件 必须 存放 在 共享 存 
储 中 。 此 外 ， 如 果 需 要 对 立方 体 钻 透 (Drill-through) ， 必 须要 将 事实 表 也 存放 在 共享 存储 中 。 


2.SAS/CONNECT 服 务 器 


SAS/CONNECT 服 务 器 可 以 上 传 或 下 载 数 据 ， 以 及 执行 从 远程 机 器 提交 的 SAS 代 码 。SAS/CONNECT Spawner 运 行 在 远程 机 器 上 ， 它 监听 来 自 SAS/CONNECT 客 户 端的 连接 请 求 ， 并 在 本 机 上 启动 SAS 
进程 响应 该 请 求 。 


可 以 在 多 台 机 器 上 配置 多 个 SAS/CONNECT Spawner。 而 且 ， 在 SAS 网 格 环境 中 ， 客 户 端 可 选择 将 请 求 发 送 到 SAS 网 格 服 务 器 上 ， 网 格 服务 器 会 再 根据 各 网 格 节 点 的 工作 负载 情况 分 发 任务 。 
28.4.4 ”作业 运行 选项 


当 任 何 SAS 组 件 发 生 故 障 导致 SAS 作 业 (也 称 SAS 任 务 或 SAS 程 序 ) 运行 失败 时 ， 通 常 必须 手动 重新 提交 失败 的 作业 。 这 时 ，SAS 程 序 会 从 头 再 次 开始 运行 。 对 于 处 理 大 规模 数据 与 复杂 元 算 的 作业 来 
说 ， 完 全 重新 运行 整个 作业 可 能 会 比较 费时 ， 而 且 也 没有 必要 。SAS 的 检查 点 (Checkpoint) 和 重启 (Restart) 功能 可 以 使 运行 失败 的 程序 从 上 次 失败 的 地 方 开 始 运 行 。 通 过 SAS 系 统 选 项 或 SAS Grid 
Manager Client Utility (在 网 络 环境 中 ) 参数 可 以 启用 该 功能 。 


1.SAS 检 查 点 和 重启 系统 选项 


SAS 检 查 点 和 重启 (Checkpoint-restart) 功能 可 以 通过 向 批 处 理 程序 添加 系统 选项 来 启用 。 当 启用 该 功能 时 ， 如 果 批 处 理 程序 在 运行 完成 之 前 被 终止 ， 则 当 该 批 处 理 程序 被 再 次 提交 时 ，SAs 会 从 上 次 
运行 失败 的 步骤 开始 运行 ， 而 不 必 从 头 开 始 。 


可 根据 PROC 步 和 DATA 步 的 边界 ， 或 在 程序 中 添加 的 标签 来 划分 程序 代码 的 执行 单元 。 也 就 是 说 ， 可 根据 PROC 步 和 DATA 步 的 边界 或 者 标签 来 启动 该 功能 。 但 是 不 能 同时 启动 这 两 种 类 型 的 功能 。 


系统 选项 STEPCHKPTLIB、STPCHKPT 和 STEPRESTART 启 用 DATA 步 和 PROC 步 边界 的 检查 点 及 其 相关 功能 ， 而 系统 选项 LABELCHKPT、LABELCHKPTLIB 和 LABELRESTART 是 用 于 启用 标签 检查 点 等 
相关 功能 的 。 


这 些 系统 选项 及 其 相关 代码 通常 需要 手动 添加 到 作业 或 批 处 理 程序 代码 中 。 而 在 网 格 环 境 中 ， 若 指定 对 应 的 SAS Grid Manager 客 户 端 实 用 程序 ， 即 SASGSUB 参 数 ，SAS 会 自动 向 SAS 代 码 中 添加 这 些 
系统 选项 及 代码 。 接 下 来 会 介绍 在 作业 运行 失败 后 ，SASGSUB 中 可 使 用 的 选项 。 


注意 ， 如 果 在 包括 多 个 计算 节点 的 集群 中 使 用 此 功能 ， 由 STEPCHKPTLIB 或 LABELCHKPTLIB 指 定 的 逻辑 库 必 须 位 于 集群 中 所 有 节点 都 可 访问 的 共享 存储 中 。 
2.SAS Grid Manager 客 户 端 实用 程序 


SAS Grid Manager 客 户 端 实用 程序 是 一 个 命令 行 工具 ， 命 令 为 SASGSUB。 用 户 可 使 用 该 工具 提交 SAS 程 序 到 网 格 上 进行 处 理 和 运行 。 它 可 以 与 Checkpoint-restart 功 能 一 起 使 用 ， 指 定 重启 作业 时 是 
从 最 先 失 败 的 过 程 步 (DATA 步 或 PROC 步 ) 重新 开始 运行 ， 还 是 从 最 先 失 败 的 标签 处 重新 开始 运行 。 同 时 还 可 利用 Platform LSF 的 队列 策略 将 发 生 故 障 的 作业 发 送 到 在 网 格 中 的 另 一 个 主机 继续 执行 。 


(1) SASGSUB 启 用 SAS Checkpoint-restart 功 能 
. 在 网 格 环境 中 ， 只 有 在 使 用 SASGSUB 命 令 执 行 SAS 程 序 或 调度 网 格 作 业 时 ，Checkpoint-restart 才 可 用 。 如 果 使 用 其 他 应 用 程序 将 工作 提交 给 网 格 ， 该 功能 则 不 可 用 。 


. 使 用 SASGSUB 将 SAS 程 序 提交 到 网 格 时 指定 GRIDLRESTARTOK 或 GRIDRESTARTOK 参 数 即 可 启用 Checkpoint-restatt 功 能 。GRIDLRESTARTOK 参 数 用 于 启用 标签 检查 点 ，GRIDRESTARTOK 用 于 启 


用 PROC 步 和 DATA 步 检查 点 。 不 能 同时 指定 这 两 个 参数 。 
需要 注意 的 是 ， 使 用 此 功能 时 要 求 临 时 逻辑 库 WORK 在 共享 存储 中 ， 并 且 它 还 会 增加 了 一 些 额 外 的 资源 开销 ， 因 此 不 建议 运行 每 个 SAS 程 序 时 都 使 用 。 
(2) Platform LSF 的 重新 排队 机 制 


. 在 网 格 环境 中 ， 可 以 设置 队列 ， 让 运行 结束 时 返回 指定 返回 码 的 作业 ， 或 让 由 于 主机 故障 终止 的 作业 自动 重新 排队 并 分 发 。 如 果 作业 正在 运行 时 主机 和 系统 发 生 故 障 ， 该 机 制 可 确保 所 有 失败 的 作业 
自动 分 发 到 网 格 中 的 另 一 节点 上 。 


该 功能 必须 与 GRIDRESTARTOK 或 GRIDLRESTARTOK 参 数 一 起 使 用 。 


28.5 SAS 中间 层 


SAS 中 间 层 包括 SAS Web Server、SAS Web Application Server、SAS 应 用 程序 、SAS JMS Broker、SAS Cache Locator、SAS Environment Manager, 以 及 SAS Web Infrastructure Platform 
Data Server 等 。SAS Deployment Wizard (SAS 部 署 向 导 ) 可 将 Web Application Server 配 置 为 集群 ， 而 其 他 组 件 则 需要 手动 配置 来 提高 其 可 用 性 。 


28.5.1 SAS Web Application Server 集 群 


SAS 部 署 向 导 可 以 在 一 个 或 多 个 中 间 层 机 器 上 自动 配置 多 个 相同 的 Web 应 用 程序 服务 器 实例 。 配 置 在 同一 台 机 器 上 的 多 个 服务 器 实例 称 为 垂直 (Vertical) 集群 ， 配 置 在 不 同 机 器 上 的 多 个 服务 器 实例 称 
为 水 平 (Horizontal) 集群 。 当 SAS Deployment Wizard 将 SAs Web Application Server 配 置 为 集群 时 ， 也 会 默认 将 SAS Web Server 配 置 为 对 SAS Web Application Server 实 例 进行 负载 均衡 的 HTTP 服 
务 器 。 这 时 ，SAS Web Server 会 将 进入 的 请 求 分 发 到 多 个 Web 应 用 服务 器 实例 上 进行 处 理 。 


当中 间 层 机 器 硬件 有 足够 能 力 运 行 额外 的 服务 器 实例 时 ， 垂 直 集群 可 以 帮助 改善 性 能 ， 并 且 可 防 学 软件 故障 。 当 一 个 Web 应 用 程序 服务 器 实例 骨 溃 ， 或 一 个 服务 器 实例 中 的 Web 应 用 程序 发 生 故 障 时 ， 
该 应 用 程序 可 在 其 他 Web 应 用 程序 服务 器 实例 中 运行 ， 并 且 可 以 向 外 提供 服务 。 


水 平 集群 在 改善 性 能 以 及 防范 软件 故障 的 同时 ， 也 能 够 防范 硬件 故障 ， 从 而 能 够 提供 更 高 的 可 用 性 。 如 果 一 台 机 器 衣 演 ， 在 其 他 机 器 运行 的 Web 应 用 程序 仍然 可 以 向 外 提供 服务 。 
垂直 集群 和 水 平 集群 都 可 以 避免 由 于 SAs Web Applicatin Server 的 单 点 故障 而 导致 的 系统 失败 ， 从 而 提高 SAs Web Applicatin server 和 SAs web 应 用 程序 的 可 用 性 。 

28.5.2 ”提高 中 间 层 组 件 的 可 用 性 
本 节 介 绍 可 为 SAs 中 间 层 组 件 提高 可 用 性 的 技术 和 方法 。 除 本 节 介 绍 的 提高 可 用 性 的 方法 外 ，HA 集 群 还 为 所 有 的 组 件 提供 了 故障 转移 保护 。 

1.SAS Web Server 


SAS Web Server 是 基于 HTTP 的 Web 服 务 器 。 负 载 均 衡 硬件 设备 、 负 载 均衡 软件 、 轮 询 [DNS， 以 及 高 可 用 集群 都 可 为 SAS Web Server 消 除 单 点 故障 ， 从 而 提高 其 可 用 性 。 若 负载 均衡 硬件 、 负 载 均衡 


软件 和 轮 询 DNS 为 主动 /主动 设置 ， 即 可 同时 配置 多 个 相同 的 Web 服 务 器 实例 ， 工 作 负 载 会 分 发 到 这 些 服务 器 实例 上 。 
2.SAS Web Application Server 和 SAS Web 应 用 程序 


在 28.5.1 节 中 介绍 的 SAS Web Application Server 集 群 在 为 SAS Web Application Server 和 SAS 应 用 程序 提高 性 能 的 同时 ， 还 能 够 消除 单 点 故障 ， 以 提高 SAS Web Application Server 以 及 SAS Web 应 
用 程序 的 可 用 性 。 


值得 注意 的 是 ， 由 于 面向 数据 分 析 的 特点 和 要 求 ，SAs 的 很 多 Web 应 用 程序 都 会 采用 会 话 关联 (session affinity) ， 也 称 为 黏 性 会 话 (sticky sessions) 。 该 特性 可 确保 一 个 连接 建立 后 ， 该 连接 的 所 
有 后 续 请 求 总 是 分 发 到 相同 的 Web 应 用 服务 器 实例 。 因 此 ， 当 一 个 Web 应 用 服务 器 实例 故障 后 ， 故 障 的 服务 器 实例 上 的 会 话 将 无 法 迁移 到 集群 中 的 其 他 服务 器 实例 上 。 从 Web 客 户 端 来 看 ， 请 求 会 被 重新 定 
向 到 SAS 登 录 页 面 。 用 户 可 以 重新 登录 到 新 服务 器 实例 上 工作 ， 但 是 先前 未 保存 的 工作 会 丢失 。 


3.SAS JMS Broker 


SAS 中 间 层 软件 使 用 JMS Broker 提 供 JMS (Java Messaging Services) 服务 。SAS JMS Broker 是 基于 Apache Active MQ 的 。Apache 文 档 提 供 了 多 种 策略 提高 其 可 用 性 ， 例 如 主 /从 
(Master/Slave) 集群 、Broker 网 络 ， 以 及 上 述 两 种 方法 的 组 合 。 当 为 JMS Broker 配 置 了 高 可 用 性 时 ， 要 对 SAS Web Application Server 进 行 相应 的 配置 。 


SAS Intelligence Platform: Middle-Tier Administration Guide 提 供 了 基于 共享 文件 系统 的 主 从 配置 指导 。 
4.SAS Cache Locator 


SAS Cache Locator 是 基于 Vmware vFabric GemFire 的 。SAS Web Application Server 和 SAS Web Infrastructure Platform 的 预定 服务 需要 使 用 到 该 组 件 。 在 单机 部 署 中 ， 默 认 仅 配 置 一 个 Cache 
Locator; 但 是 在 SAS Deployment Wizard 配 置 SAS 时 ， 如 果 为 Cache Locator 和 预定 服务 的 Cache Locator 指 定 了 不 同 的 端口 ， 则 会 配置 两 个 Locator。 而 在 多 机 部 署 中 ， 如 果 计 算 层 与 中 间 层 分 别 部 署 在 
了 不 同 机 器 上 ， 则 在 中 间 层 和 计算 层 机 器 上 会 各 配置 一 个 Cache Locator。 


在 上 述 两 种 情况 下 ， 经 过 一 些 手工 配置 ， 这 两 个 Cache Locator 可 彼此 提供 故障 转移 支持 。 这 两 个 Cache Locator 地 位 对 等 ， 若 一 个 停止 服务 ， 另 一 个 将 承担 所 有 的 工作 。 当 然 ， 也 可 专门 为 Cache 
Locator 配 置 多 个 实例 以 提高 其 可 用 性 。 


5.SAS Web Infrastructure Platform Data Server 


SAS Web Infrastructure Platform Data Server (SAS Web Infrastructure Platform 数据 服务 器 ) 为 SAS Web Infrastructure Platform、SAsS Content Server 和 SAS Environment Manager 提 供 存 
储 。 默 认 情 况 下 ， 该 服务 器 基于 PostgreSQL。 


可 以 为 Web Infrastructure Platform Data Server 配 置 主 服务 器 和 备用 服务 器 。PostgrepSQL 的 流 式 复制 (streaming replication) 机 制 能 够 将 记录 持续 地 发 送 到 备用 服务 器 以 保持 同步 。 流 式 复制 不 
提供 识别 主 服 务 器 故障 和 通知 备用 服务 器 的 功能 。 然 而 ， 有 些 工 具 可 以 很 好 地 与 操作 系统 功能 (例如 IP 地 址 迁移 ) 集成 来 提供 故障 转移 。 


6.SAS Environment Manager 


SAS Environment Manager 合 并 了 一 些 Vmware Hyperic 技 术 以 提供 企业 级 的 操作 功能 ， 提 供 了 Web 方 式 的 SAs 环 境 管 理工 具 ， 例 如 对 SAs 资 源 的 监控 和 管理 工具 。 


Hyperic 服 务 器 集群 需要 通过 负载 均衡 软件 或 硬件 将 客户 端 请 求 发 送 到 主 Hyperic 服 务 器 。 


28.6 ”数据 层 


对 构建 可 靠 的 系统 来 说 ， 数 据 存 储 的 可 用 性 也 是 需要 考虑 的 内 容 。SAS 智 能 分 析 平 台 的 数据 有 多 种 存储 方式 。 维 持 数 据 的 可 用 性 时 ， 根 据 存 储 方式 的 不 同 会 有 所 不 同 。 


SAS 数 据 集中 的 数据 、SAS OLAP 立 方 体 及 SAS SPD 引 警 表 都 是 通过 文件 系统 来 存储 和 访问 的 。 其 可 用 性 需 从 文件 系统 的 角度 进行 考虑 。 对 于 关系 型 数据 库 或 ERP 系 统 中 数据 的 可 用 性 ， 可 通过 关系 型 数 
据 库 或 ERP 系 统 的 可 用 性 技术 来 提高 。 无 论 是 哪 种 方式 ， 底 层 存储 是 物理 存储， 所 以 也 可 以 通过 对 磁盘 设置 RAID 来 提供 郊 余 。 


28.7 本章 小 结 


SAS 智 能 平台 的 所 有 组 件 都 可 使 用 合适 的 方法 和 技术 来 提高 其 可 用 性 。 在 具体 方案 设计 时 ， 有 如 下 几 点 可 参考 : 


` 不 需要 为 所 有 组 件 进行 高 可 用 配置 。 本 章 虽 然 描述 了 可 提高 SAS 智 能 平台 各 个 组 件 可 用 性 的 方法 ,但 是 对 一 些 非 关 键 服务 ， 例 如 SAS Environment Manager Agent 和 SAS Deployment Agent 等 ， 则 不 必 为 其 
专门 配置 来 提高 可 用 性 。 


` SAS 计 算 服 务 器 可 使 用 其 自身 的 负载 均衡 机 制 或 HA 软件 来 提高 其 可 用 性 。 只 是 在 进行 负载 均衡 配置 时 需要 更 多 的 SAS 软 件 许可 ， 但 同时 也 能 够 增加 整个 系统 的 分 析 和 处 理 能 


: 对 SAS 组 件 进行 高 可 用 配置 时 ， 需 整体 规划 ， 例 如 ， 从 可 用 的 硬件 (机 器 和 共享 存储 ) 、 组 件 分 层 、 关 键 服务 等 各 方面 综合 考虑 。 


